{
 "cells": [
  {
   "cell_type": "code",
   "execution_count": null,
   "id": "4839cf79",
   "metadata": {},
   "outputs": [],
   "source": [
    "!pip install bio\n",
    "!pip install captum\n",
    "!pip install umap-learn\n",
    "!pip install pytorch-lightning"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 1,
   "id": "cf4a48f3",
   "metadata": {},
   "outputs": [],
   "source": [
    "import sys\n",
    "sys.path.append('../')"
   ]
  },
  {
   "cell_type": "markdown",
   "id": "1fd01bd9",
   "metadata": {},
   "source": [
    "## Load data and model"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 2,
   "id": "0144808c",
   "metadata": {},
   "outputs": [
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "Loading BertTokenizer...\n"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "/home/ec2-user/anaconda3/envs/pytorch_latest_p36_clone/lib/python3.6/site-packages/torch/utils/data/dataloader.py:477: UserWarning: This DataLoader will create 32 worker processes in total. Our suggested max number of worker in current system is 8, which is smaller than what this DataLoader is going to create. Please be aware that excessive worker creation might get DataLoader running slow or even freeze, lower the worker number to avoid potential slowness/freeze if necessary.\n",
      "  cpuset_checked))\n"
     ]
    }
   ],
   "source": [
    "from torch_geometric.data import DataLoader\n",
    "from lmgvp import data_loaders\n",
    "\n",
    "dataset = data_loaders.get_dataset(\n",
    "    'mf', 'seq_struct', split=\"test\"\n",
    ")\n",
    "\n",
    "loader = DataLoader(\n",
    "    dataset,\n",
    "    batch_size=32,\n",
    "    shuffle=False,\n",
    "    num_workers=32,\n",
    ")"
   ]
  },
  {
   "cell_type": "markdown",
   "id": "535440e6",
   "metadata": {},
   "source": [
    "Get mapping from protein names to data index:"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 3,
   "id": "a52f9370",
   "metadata": {},
   "outputs": [],
   "source": [
    "protein_name_indices = {d[0].name:i for i, d in enumerate(dataset)}"
   ]
  },
  {
   "cell_type": "markdown",
   "id": "7f48d5b5",
   "metadata": {},
   "source": [
    "Build model and load pretained weights from checkpoint:"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "id": "809d1278",
   "metadata": {},
   "outputs": [],
   "source": [
    "from lmgvp.modules import BertMQAModel\n",
    "import torch\n",
    "\n",
    "checkpoint_path = \"../../data/epoch=0-step=1868.ckpt\"\n",
    "\n",
    "model = BertMQAModel.load_from_checkpoint(\n",
    "    checkpoint_path,\n",
    "    weights=dataset.pos_weights,\n",
    ")\n",
    "\n",
    "device = torch.device(\"cuda\")\n",
    "model = model.to(device)\n",
    "model.eval()"
   ]
  },
  {
   "cell_type": "markdown",
   "id": "5098a99a",
   "metadata": {},
   "source": [
    "## Get latent activation and prediction results\n",
    "\n",
    "We use PyTorch forward hook here to extract the latent activations in the pen-ultimate layer for cluster analysis. The prediction results are also collected along the way."
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 5,
   "id": "fb59bf8b",
   "metadata": {},
   "outputs": [
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "  0%|          | 0/107 [00:00<?, ?it/s]/home/ec2-user/anaconda3/envs/pytorch_latest_p36_clone/lib/python3.6/site-packages/torch/utils/data/dataloader.py:477: UserWarning: This DataLoader will create 32 worker processes in total. Our suggested max number of worker in current system is 8, which is smaller than what this DataLoader is going to create. Please be aware that excessive worker creation might get DataLoader running slow or even freeze, lower the worker number to avoid potential slowness/freeze if necessary.\n",
      "  cpuset_checked))\n",
      "100%|██████████| 107/107 [05:23<00:00,  3.02s/it]\n"
     ]
    }
   ],
   "source": [
    "import tqdm\n",
    "import torch\n",
    "\n",
    "def collect_activation(self, input, output):\n",
    "    activations.append(input[0].clone().detach().cpu())\n",
    "    \n",
    "activations = []\n",
    "y_preds = []\n",
    "y_true = []\n",
    "names = []\n",
    "handle = None\n",
    "\n",
    "try: \n",
    "    handle = model.dense[3].register_forward_hook(collect_activation)\n",
    "    with torch.no_grad():\n",
    "        for batch in tqdm.tqdm(loader, total=len(loader)):\n",
    "            names+=batch[0].name            \n",
    "            y_true.append(batch[-1])\n",
    "            batch = [b.to(device) for b in batch]\n",
    "            y_pred = model(batch)\n",
    "            y_preds.append(y_pred.cpu())\n",
    "    y_preds = torch.vstack(y_preds)\n",
    "    y_true = torch.vstack(y_true)\n",
    "finally:\n",
    "    if handle is not None:\n",
    "        handle.remove()\n",
    "        \n",
    "activations = torch.cat(activations, dim=0)"
   ]
  },
  {
   "cell_type": "markdown",
   "id": "7c473b80",
   "metadata": {},
   "source": [
    "## Load groundtruth binding sites obtained from BioLiP \n",
    "\n",
    "Link to source file(we use processed pickle file here)https://zhanggroup.org/BioLiP/download.html, please use the `Process_binding_site_data.ipynb` to preprocess the downloaded data first."
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 13,
   "id": "d35c3586",
   "metadata": {},
   "outputs": [],
   "source": [
    "import pickle\n",
    "\n",
    "binding_data = None\n",
    "with open('../../data/BioLiP_binding_sites.pickle', 'rb') as f:\n",
    "    binding_data = pickle.load(f)"
   ]
  },
  {
   "cell_type": "markdown",
   "id": "0bfda4a6",
   "metadata": {},
   "source": [
    "## Load mapping from molecular functions to indices in model output"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 7,
   "id": "938a63fa",
   "metadata": {},
   "outputs": [],
   "source": [
    "from lmgvp import deepfrier_utils\n",
    "import os\n",
    "\n",
    "prot2annot, goterms, gonames, counts = deepfrier_utils.load_GO_annot(\n",
    "    os.path.join(\n",
    "        \"../../data\",\n",
    "        \"nrPDB-GO_2019.06.18_annot.tsv\",\n",
    "    )\n",
    ")\n",
    "\n",
    "name_indices = {n:i for i, n in enumerate(gonames['mf'])}"
   ]
  },
  {
   "cell_type": "markdown",
   "id": "7d6b0877",
   "metadata": {},
   "source": [
    "## Cluster analysis in latent space\n",
    "\n",
    "Use Umap projection and DBSCAN to obtain clusters of proteins based on the latent activation."
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 8,
   "id": "c112e229",
   "metadata": {},
   "outputs": [],
   "source": [
    "import umap.umap_ as umap\n",
    "from sklearn.cluster import DBSCAN\n",
    "\n",
    "def get_umap_projection_and_cluster(mf_term):\n",
    "    \n",
    "    label_index = name_indices[mf_term]\n",
    "\n",
    "    filtered_activations = activations[y_true[:, label_index] > 0, :]\n",
    "    filtered_names = []\n",
    "    filtered_predictions = y_preds[y_true[:, label_index] > 0, label_index]\n",
    "    for i, v in enumerate(y_true[:, label_index]):\n",
    "        if v > 0:\n",
    "            filtered_names.append(names[i])            \n",
    "    reducer = umap.UMAP()\n",
    "    embedding = reducer.fit_transform(filtered_activations.numpy())\n",
    "    clustering = DBSCAN(eps=0.4, min_samples=2).fit(embedding)\n",
    "    cluster_labels = clustering.labels_\n",
    "    \n",
    "    results = []\n",
    "    for i, name in enumerate(filtered_names):\n",
    "        results.append({\n",
    "            'umap_x': embedding[i, 0],\n",
    "            'umap_y': embedding[i, 1],\n",
    "            'name': name,\n",
    "            'cluster_id': cluster_labels[i],\n",
    "            'pred': str(float(filtered_predictions[i]) > 0),\n",
    "            'binding_data': (mf_term in binding_data and name in binding_data[mf_term])\n",
    "        })\n",
    "        \n",
    "    return results"
   ]
  },
  {
   "cell_type": "markdown",
   "id": "885d0116",
   "metadata": {},
   "source": [
    "Run cluster analysis on proteins with `ATP binding` function and visualize the results"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 9,
   "id": "2588ef54",
   "metadata": {},
   "outputs": [],
   "source": [
    "mf_term = \"ATP binding\"\n",
    "results = get_umap_projection_and_cluster(mf_term)\n",
    "\n",
    "import pandas as pd\n",
    "df = pd.DataFrame.from_dict(results)"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 10,
   "id": "9377cc89",
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/html": [
       "\n",
       "<div id=\"altair-viz-94477b7990204d0dbe9d2977d438ffcc\"></div>\n",
       "<script type=\"text/javascript\">\n",
       "  (function(spec, embedOpt){\n",
       "    let outputDiv = document.currentScript.previousElementSibling;\n",
       "    if (outputDiv.id !== \"altair-viz-94477b7990204d0dbe9d2977d438ffcc\") {\n",
       "      outputDiv = document.getElementById(\"altair-viz-94477b7990204d0dbe9d2977d438ffcc\");\n",
       "    }\n",
       "    const paths = {\n",
       "      \"vega\": \"https://cdn.jsdelivr.net/npm//vega@5?noext\",\n",
       "      \"vega-lib\": \"https://cdn.jsdelivr.net/npm//vega-lib?noext\",\n",
       "      \"vega-lite\": \"https://cdn.jsdelivr.net/npm//vega-lite@4.8.1?noext\",\n",
       "      \"vega-embed\": \"https://cdn.jsdelivr.net/npm//vega-embed@6?noext\",\n",
       "    };\n",
       "\n",
       "    function loadScript(lib) {\n",
       "      return new Promise(function(resolve, reject) {\n",
       "        var s = document.createElement('script');\n",
       "        s.src = paths[lib];\n",
       "        s.async = true;\n",
       "        s.onload = () => resolve(paths[lib]);\n",
       "        s.onerror = () => reject(`Error loading script: ${paths[lib]}`);\n",
       "        document.getElementsByTagName(\"head\")[0].appendChild(s);\n",
       "      });\n",
       "    }\n",
       "\n",
       "    function showError(err) {\n",
       "      outputDiv.innerHTML = `<div class=\"error\" style=\"color:red;\">${err}</div>`;\n",
       "      throw err;\n",
       "    }\n",
       "\n",
       "    function displayChart(vegaEmbed) {\n",
       "      vegaEmbed(outputDiv, spec, embedOpt)\n",
       "        .catch(err => showError(`Javascript Error: ${err.message}<br>This usually means there's a typo in your chart specification. See the javascript console for the full traceback.`));\n",
       "    }\n",
       "\n",
       "    if(typeof define === \"function\" && define.amd) {\n",
       "      requirejs.config({paths});\n",
       "      require([\"vega-embed\"], displayChart, err => showError(`Error loading script: ${err.message}`));\n",
       "    } else if (typeof vegaEmbed === \"function\") {\n",
       "      displayChart(vegaEmbed);\n",
       "    } else {\n",
       "      loadScript(\"vega\")\n",
       "        .then(() => loadScript(\"vega-lite\"))\n",
       "        .then(() => loadScript(\"vega-embed\"))\n",
       "        .catch(showError)\n",
       "        .then(() => displayChart(vegaEmbed));\n",
       "    }\n",
       "  })({\"config\": {\"view\": {\"continuousWidth\": 400, \"continuousHeight\": 300}}, \"data\": {\"name\": \"data-6ca11d8bed18bdfa432622cb008091f3\"}, \"mark\": {\"type\": \"point\", \"filled\": true, \"size\": 36}, \"encoding\": {\"color\": {\"type\": \"nominal\", \"field\": \"cluster_id\"}, \"shape\": {\"type\": \"nominal\", \"field\": \"pred\", \"scale\": {\"range\": [\"triangle\", \"circle\"], \"zero\": true}}, \"x\": {\"type\": \"quantitative\", \"field\": \"umap_x\", \"scale\": {\"clamp\": true, \"domain\": [0, 10.5]}}, \"y\": {\"type\": \"quantitative\", \"field\": \"umap_y\", \"scale\": {\"clamp\": true, \"domain\": [5, 14]}}}, \"height\": 600, \"selection\": {\"selector001\": {\"type\": \"interval\", \"bind\": \"scales\", \"encodings\": [\"x\", \"y\"]}}, \"width\": 600, \"$schema\": \"https://vega.github.io/schema/vega-lite/v4.8.1.json\", \"datasets\": {\"data-6ca11d8bed18bdfa432622cb008091f3\": [{\"umap_x\": -0.2871541678905487, \"umap_y\": 7.156040668487549, \"name\": \"3TE5-C\", \"cluster_id\": 0, \"pred\": \"False\", \"binding_data\": false}, {\"umap_x\": -1.146038293838501, \"umap_y\": 1.9670668840408325, \"name\": \"5NBL-C\", \"cluster_id\": 1, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": -0.680932343006134, \"umap_y\": 8.21653938293457, \"name\": \"4QS9-A\", \"cluster_id\": 0, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 1.7294412851333618, \"umap_y\": 6.628378391265869, \"name\": \"2Q8F-A\", \"cluster_id\": 2, \"pred\": \"False\", \"binding_data\": false}, {\"umap_x\": -0.872359037399292, \"umap_y\": 5.919460773468018, \"name\": \"1E8C-A\", \"cluster_id\": 0, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 0.5040844082832336, \"umap_y\": 1.5068764686584473, \"name\": \"5C18-A\", \"cluster_id\": 3, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 6.417435646057129, \"umap_y\": 3.546416759490967, \"name\": \"4EWQ-A\", \"cluster_id\": 4, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 0.5473687052726746, \"umap_y\": 3.0186049938201904, \"name\": \"5H1C-A\", \"cluster_id\": 3, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 6.66610860824585, \"umap_y\": 2.851580858230591, \"name\": \"2BPM-A\", \"cluster_id\": 4, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 4.916092872619629, \"umap_y\": 3.842182159423828, \"name\": \"5AIR-A\", \"cluster_id\": 4, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 1.1682795286178589, \"umap_y\": 6.580021858215332, \"name\": \"4B56-A\", \"cluster_id\": 0, \"pred\": \"False\", \"binding_data\": false}, {\"umap_x\": 3.534670114517212, \"umap_y\": 3.9735517501831055, \"name\": \"6NT9-A\", \"cluster_id\": 4, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 0.3580448627471924, \"umap_y\": 1.742477297782898, \"name\": \"5VFP-F\", \"cluster_id\": 3, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 2.333042621612549, \"umap_y\": 6.237751007080078, \"name\": \"5HPT-C\", \"cluster_id\": 2, \"pred\": \"False\", \"binding_data\": false}, {\"umap_x\": 6.755557060241699, \"umap_y\": 3.192352533340454, \"name\": \"4MYG-A\", \"cluster_id\": 4, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": -2.1587276458740234, \"umap_y\": 5.3395538330078125, \"name\": \"1CT9-A\", \"cluster_id\": 0, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 0.38443586230278015, \"umap_y\": 6.164909839630127, \"name\": \"5K98-A\", \"cluster_id\": 0, \"pred\": \"False\", \"binding_data\": false}, {\"umap_x\": 1.5177212953567505, \"umap_y\": 4.114215850830078, \"name\": \"5UJM-E\", \"cluster_id\": 5, \"pred\": \"False\", \"binding_data\": false}, {\"umap_x\": 2.0239574909210205, \"umap_y\": 4.423079490661621, \"name\": \"5DFZ-C\", \"cluster_id\": 6, \"pred\": \"False\", \"binding_data\": false}, {\"umap_x\": -1.4919663667678833, \"umap_y\": 5.195333003997803, \"name\": \"1WLE-A\", \"cluster_id\": 0, \"pred\": \"False\", \"binding_data\": false}, {\"umap_x\": -2.0300443172454834, \"umap_y\": 8.673399925231934, \"name\": \"1E2Q-A\", \"cluster_id\": 7, \"pred\": \"True\", \"binding_data\": true}, {\"umap_x\": -2.2036259174346924, \"umap_y\": 5.2582855224609375, \"name\": \"5MLK-A\", \"cluster_id\": 0, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": -2.95668888092041, \"umap_y\": 8.4004487991333, \"name\": \"1QPG-A\", \"cluster_id\": 7, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 3.208144426345825, \"umap_y\": 4.304252624511719, \"name\": \"3AKJ-A\", \"cluster_id\": -1, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 5.350857734680176, \"umap_y\": 3.3737075328826904, \"name\": \"5U6Y-A\", \"cluster_id\": 4, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 4.94538688659668, \"umap_y\": 3.8511643409729004, \"name\": \"3NYO-A\", \"cluster_id\": 4, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": -1.4448604583740234, \"umap_y\": 8.528912544250488, \"name\": \"2ORV-A\", \"cluster_id\": 7, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 2.3020637035369873, \"umap_y\": 6.40269660949707, \"name\": \"4WHV-B\", \"cluster_id\": 2, \"pred\": \"False\", \"binding_data\": false}, {\"umap_x\": -2.1697447299957275, \"umap_y\": 4.485905170440674, \"name\": \"5EKD-A\", \"cluster_id\": 0, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 1.5917097330093384, \"umap_y\": 6.470170021057129, \"name\": \"2MT6-A\", \"cluster_id\": 2, \"pred\": \"False\", \"binding_data\": false}, {\"umap_x\": -0.11065731942653656, \"umap_y\": 2.496479034423828, \"name\": \"5FPN-A\", \"cluster_id\": -1, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 2.4883036613464355, \"umap_y\": 4.377362251281738, \"name\": \"4OAU-C\", \"cluster_id\": 6, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 2.5858280658721924, \"umap_y\": 6.64755392074585, \"name\": \"2C4P-A\", \"cluster_id\": 2, \"pred\": \"False\", \"binding_data\": false}, {\"umap_x\": 0.5420752167701721, \"umap_y\": 5.162403106689453, \"name\": \"3PV0-A\", \"cluster_id\": 0, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 6.30954122543335, \"umap_y\": 3.0898308753967285, \"name\": \"1G3N-A\", \"cluster_id\": 4, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 6.035586357116699, \"umap_y\": 3.347461223602295, \"name\": \"4FL3-A\", \"cluster_id\": 4, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 1.6760954856872559, \"umap_y\": 3.674839735031128, \"name\": \"5V8F-9\", \"cluster_id\": 5, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 1.5617636442184448, \"umap_y\": 3.119781255722046, \"name\": \"5V8F-A\", \"cluster_id\": 5, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 1.6641061305999756, \"umap_y\": 3.682659864425659, \"name\": \"5V8F-E\", \"cluster_id\": 5, \"pred\": \"False\", \"binding_data\": false}, {\"umap_x\": 1.0994349718093872, \"umap_y\": 4.322657108306885, \"name\": \"2NPI-A\", \"cluster_id\": 8, \"pred\": \"False\", \"binding_data\": true}, {\"umap_x\": 0.5125616788864136, \"umap_y\": 4.750077724456787, \"name\": \"4ZIR-B\", \"cluster_id\": 0, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": -0.4269947111606598, \"umap_y\": 8.2589750289917, \"name\": \"1IG8-A\", \"cluster_id\": 0, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": -1.77796471118927, \"umap_y\": 6.435287952423096, \"name\": \"5UGH-A\", \"cluster_id\": 0, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 1.3153128623962402, \"umap_y\": 6.037339687347412, \"name\": \"6G2J-Z\", \"cluster_id\": 9, \"pred\": \"False\", \"binding_data\": false}, {\"umap_x\": 1.159981369972229, \"umap_y\": 5.962033271789551, \"name\": \"4UXX-A\", \"cluster_id\": 9, \"pred\": \"False\", \"binding_data\": false}, {\"umap_x\": -0.9926033616065979, \"umap_y\": 8.175617218017578, \"name\": \"3AFO-A\", \"cluster_id\": 0, \"pred\": \"False\", \"binding_data\": false}, {\"umap_x\": 6.01203727722168, \"umap_y\": 3.3265905380249023, \"name\": \"5KCV-A\", \"cluster_id\": 4, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 6.597171306610107, \"umap_y\": 3.3209707736968994, \"name\": \"1CM8-A\", \"cluster_id\": 4, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 0.9007211327552795, \"umap_y\": 6.426950931549072, \"name\": \"2IF8-A\", \"cluster_id\": 0, \"pred\": \"False\", \"binding_data\": false}, {\"umap_x\": 1.0747758150100708, \"umap_y\": 4.31655740737915, \"name\": \"1JEY-A\", \"cluster_id\": 8, \"pred\": \"False\", \"binding_data\": false}, {\"umap_x\": 0.6492002010345459, \"umap_y\": 2.1764347553253174, \"name\": \"6QI9-D\", \"cluster_id\": 3, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 5.414578914642334, \"umap_y\": 3.3081510066986084, \"name\": \"1UA2-A\", \"cluster_id\": 4, \"pred\": \"True\", \"binding_data\": true}, {\"umap_x\": -2.4294092655181885, \"umap_y\": 4.34576416015625, \"name\": \"2DLC-X\", \"cluster_id\": 0, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 0.018236123025417328, \"umap_y\": 6.887897968292236, \"name\": \"1X6V-B\", \"cluster_id\": 0, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 0.7303176522254944, \"umap_y\": 2.59672212600708, \"name\": \"5U8S-7\", \"cluster_id\": 3, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 2.0599803924560547, \"umap_y\": 4.311672210693359, \"name\": \"2PZI-A\", \"cluster_id\": 6, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 0.6795782446861267, \"umap_y\": 1.5003020763397217, \"name\": \"5XMK-A\", \"cluster_id\": 3, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 5.691936016082764, \"umap_y\": 3.0107474327087402, \"name\": \"4CZT-A\", \"cluster_id\": 4, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": -1.765932559967041, \"umap_y\": 4.719888210296631, \"name\": \"3LSS-A\", \"cluster_id\": 0, \"pred\": \"True\", \"binding_data\": true}, {\"umap_x\": -0.6467918157577515, \"umap_y\": 7.393688678741455, \"name\": \"3D4J-A\", \"cluster_id\": 0, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": -2.567755699157715, \"umap_y\": 4.564120292663574, \"name\": \"6CHD-A\", \"cluster_id\": 0, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 3.1414878368377686, \"umap_y\": 6.589146614074707, \"name\": \"1AYZ-A\", \"cluster_id\": 2, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 4.232577323913574, \"umap_y\": 3.9253885746002197, \"name\": \"2LAV-A\", \"cluster_id\": 4, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": -1.0162674188613892, \"umap_y\": 8.323922157287598, \"name\": \"3NCA-A\", \"cluster_id\": 0, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": -0.21611672639846802, \"umap_y\": 6.634471416473389, \"name\": \"6AVH-A\", \"cluster_id\": 0, \"pred\": \"False\", \"binding_data\": false}, {\"umap_x\": -0.2719297707080841, \"umap_y\": 5.680265426635742, \"name\": \"1DI7-A\", \"cluster_id\": 0, \"pred\": \"False\", \"binding_data\": false}, {\"umap_x\": 0.26929110288619995, \"umap_y\": 3.2970845699310303, \"name\": \"2IW3-A\", \"cluster_id\": 3, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": -0.8090453743934631, \"umap_y\": 6.097837924957275, \"name\": \"2V4Y-A\", \"cluster_id\": 0, \"pred\": \"False\", \"binding_data\": false}, {\"umap_x\": 1.5380500555038452, \"umap_y\": 3.1880807876586914, \"name\": \"5VQ9-D\", \"cluster_id\": 5, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": -1.524886965751648, \"umap_y\": 5.523184299468994, \"name\": \"3U9T-A\", \"cluster_id\": 0, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": -1.2652796506881714, \"umap_y\": 5.860106945037842, \"name\": \"5IE2-A\", \"cluster_id\": 0, \"pred\": \"False\", \"binding_data\": false}, {\"umap_x\": -0.6618185639381409, \"umap_y\": 6.1595869064331055, \"name\": \"3N1C-A\", \"cluster_id\": 0, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 2.333726167678833, \"umap_y\": 4.524139881134033, \"name\": \"5DXT-A\", \"cluster_id\": 6, \"pred\": \"False\", \"binding_data\": false}, {\"umap_x\": -2.622828960418701, \"umap_y\": 8.695372581481934, \"name\": \"4AKE-A\", \"cluster_id\": 7, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": -1.313001275062561, \"umap_y\": 5.044371128082275, \"name\": \"4RQF-A\", \"cluster_id\": 0, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": -1.32285737991333, \"umap_y\": 6.489479064941406, \"name\": \"4L6W-A\", \"cluster_id\": 0, \"pred\": \"False\", \"binding_data\": false}, {\"umap_x\": -1.6643635034561157, \"umap_y\": 6.557624340057373, \"name\": \"1XRB-A\", \"cluster_id\": 0, \"pred\": \"False\", \"binding_data\": false}, {\"umap_x\": 0.38818708062171936, \"umap_y\": 5.256338596343994, \"name\": \"1RNL-A\", \"cluster_id\": 0, \"pred\": \"False\", \"binding_data\": false}, {\"umap_x\": 1.4525504112243652, \"umap_y\": 3.2978506088256836, \"name\": \"3EZK-A\", \"cluster_id\": 5, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": -1.3688000440597534, \"umap_y\": 6.275856018066406, \"name\": \"2A7S-A\", \"cluster_id\": 0, \"pred\": \"False\", \"binding_data\": false}, {\"umap_x\": 2.263298511505127, \"umap_y\": 6.780442237854004, \"name\": \"2GK9-A\", \"cluster_id\": 2, \"pred\": \"False\", \"binding_data\": false}, {\"umap_x\": -3.7497661113739014, \"umap_y\": 8.589937210083008, \"name\": \"4FKX-A\", \"cluster_id\": 10, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": -0.6099848747253418, \"umap_y\": 8.42636489868164, \"name\": \"1BG3-A\", \"cluster_id\": 0, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 3.5914525985717773, \"umap_y\": 3.940195322036743, \"name\": \"4JLC-A\", \"cluster_id\": 4, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": -1.9592921733856201, \"umap_y\": 8.701591491699219, \"name\": \"2BBW-A\", \"cluster_id\": 7, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 0.7618520855903625, \"umap_y\": 4.146206855773926, \"name\": \"1XDP-A\", \"cluster_id\": 8, \"pred\": \"False\", \"binding_data\": true}, {\"umap_x\": -2.6640288829803467, \"umap_y\": 4.6353373527526855, \"name\": \"3JZF-A\", \"cluster_id\": 0, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": -3.675579071044922, \"umap_y\": 8.596294403076172, \"name\": \"1NSK-R\", \"cluster_id\": 10, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": -1.5538133382797241, \"umap_y\": 2.6192545890808105, \"name\": \"5FWK-A\", \"cluster_id\": 1, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": -2.5169894695281982, \"umap_y\": 4.658098220825195, \"name\": \"2DER-A\", \"cluster_id\": 0, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": -1.3934853076934814, \"umap_y\": 6.038607597351074, \"name\": \"5U03-A\", \"cluster_id\": 0, \"pred\": \"False\", \"binding_data\": false}, {\"umap_x\": 0.038415469229221344, \"umap_y\": 5.418278694152832, \"name\": \"1NI5-A\", \"cluster_id\": 0, \"pred\": \"False\", \"binding_data\": false}, {\"umap_x\": 4.339661121368408, \"umap_y\": 3.994354724884033, \"name\": \"2RSV-A\", \"cluster_id\": 4, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": -1.5247279405593872, \"umap_y\": 5.653030872344971, \"name\": \"4C5A-A\", \"cluster_id\": 0, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": -1.5133720636367798, \"umap_y\": 2.278078317642212, \"name\": \"5UYZ-A\", \"cluster_id\": 1, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": -2.211564064025879, \"umap_y\": 4.580636978149414, \"name\": \"1R6T-A\", \"cluster_id\": 0, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": -0.7647952437400818, \"umap_y\": 7.591063976287842, \"name\": \"2R3V-A\", \"cluster_id\": 0, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": -1.9943455457687378, \"umap_y\": 5.205915927886963, \"name\": \"3FKY-A\", \"cluster_id\": 0, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": -1.1452181339263916, \"umap_y\": 5.183384418487549, \"name\": \"5D1Y-A\", \"cluster_id\": 0, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 1.906838059425354, \"umap_y\": 6.626187324523926, \"name\": \"4DDG-A\", \"cluster_id\": 2, \"pred\": \"False\", \"binding_data\": false}, {\"umap_x\": 1.3200031518936157, \"umap_y\": 1.1751805543899536, \"name\": \"2VSX-A\", \"cluster_id\": 11, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 5.182669639587402, \"umap_y\": 3.610186815261841, \"name\": \"4CFF-A\", \"cluster_id\": 4, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": -2.297987222671509, \"umap_y\": 4.400183200836182, \"name\": \"3A5Z-A\", \"cluster_id\": 0, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 0.20339934527873993, \"umap_y\": 2.9826323986053467, \"name\": \"5AKB-A\", \"cluster_id\": 3, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": -3.810311794281006, \"umap_y\": 8.65646743774414, \"name\": \"1NSQ-A\", \"cluster_id\": 10, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": -2.3749914169311523, \"umap_y\": 4.103395462036133, \"name\": \"4R3Z-B\", \"cluster_id\": 0, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": -1.870198369026184, \"umap_y\": 4.770689487457275, \"name\": \"4R3Z-C\", \"cluster_id\": 0, \"pred\": \"False\", \"binding_data\": false}, {\"umap_x\": 0.628874659538269, \"umap_y\": 1.6852445602416992, \"name\": \"1E94-E\", \"cluster_id\": 3, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 1.6563829183578491, \"umap_y\": 3.3487143516540527, \"name\": \"5J1S-A\", \"cluster_id\": 5, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 2.685436725616455, \"umap_y\": 6.45684814453125, \"name\": \"2YB6-A\", \"cluster_id\": 2, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": -2.2276408672332764, \"umap_y\": 3.6741139888763428, \"name\": \"1Y4U-A\", \"cluster_id\": 0, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 1.8007746934890747, \"umap_y\": 6.656997203826904, \"name\": \"3CRK-A\", \"cluster_id\": 2, \"pred\": \"False\", \"binding_data\": false}, {\"umap_x\": -0.006552018690854311, \"umap_y\": 6.846319198608398, \"name\": \"3LQ3-A\", \"cluster_id\": 0, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": -1.0675822496414185, \"umap_y\": 1.9435479640960693, \"name\": \"3MN5-A\", \"cluster_id\": 1, \"pred\": \"True\", \"binding_data\": true}, {\"umap_x\": 1.1561250686645508, \"umap_y\": 4.81458044052124, \"name\": \"5VOY-O\", \"cluster_id\": 12, \"pred\": \"False\", \"binding_data\": false}, {\"umap_x\": -0.8361476063728333, \"umap_y\": 8.23897933959961, \"name\": \"2I6B-A\", \"cluster_id\": 0, \"pred\": \"False\", \"binding_data\": false}, {\"umap_x\": 0.4438316524028778, \"umap_y\": 2.3918514251708984, \"name\": \"1V5W-A\", \"cluster_id\": 3, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": -1.9278472661972046, \"umap_y\": 4.788456439971924, \"name\": \"4AH6-A\", \"cluster_id\": 0, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 3.9588241577148438, \"umap_y\": 4.025996208190918, \"name\": \"4WWA-A\", \"cluster_id\": 4, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 0.3044063448905945, \"umap_y\": 3.6727402210235596, \"name\": \"5LL6-h\", \"cluster_id\": 3, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": -0.8641784191131592, \"umap_y\": 7.844571113586426, \"name\": \"2CH6-A\", \"cluster_id\": 0, \"pred\": \"False\", \"binding_data\": false}, {\"umap_x\": -0.7162396311759949, \"umap_y\": 6.0160064697265625, \"name\": \"1GG4-A\", \"cluster_id\": 0, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": -0.6537222862243652, \"umap_y\": 8.433478355407715, \"name\": \"4DCH-A\", \"cluster_id\": 0, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 1.5886002779006958, \"umap_y\": 6.469854354858398, \"name\": \"4DZY-A\", \"cluster_id\": 2, \"pred\": \"False\", \"binding_data\": false}, {\"umap_x\": -0.7983574867248535, \"umap_y\": 4.420314311981201, \"name\": \"4UAQ-A\", \"cluster_id\": -1, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 5.555984973907471, \"umap_y\": 3.29544997215271, \"name\": \"1NY3-A\", \"cluster_id\": 4, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": -2.286024332046509, \"umap_y\": 4.683693885803223, \"name\": \"3ZXV-A\", \"cluster_id\": 0, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": -2.3668503761291504, \"umap_y\": 3.7865772247314453, \"name\": \"2IOQ-A\", \"cluster_id\": 0, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 4.861309051513672, \"umap_y\": 3.8461947441101074, \"name\": \"5TOS-A\", \"cluster_id\": 4, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": -1.8653167486190796, \"umap_y\": 6.427772045135498, \"name\": \"1O92-A\", \"cluster_id\": 0, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 0.7084671258926392, \"umap_y\": 2.207200288772583, \"name\": \"1R6B-X\", \"cluster_id\": 3, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": -0.8344748616218567, \"umap_y\": 7.54896354675293, \"name\": \"2YHX-A\", \"cluster_id\": 0, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 0.9426302313804626, \"umap_y\": 5.6104207038879395, \"name\": \"2NVU-B\", \"cluster_id\": 12, \"pred\": \"False\", \"binding_data\": true}, {\"umap_x\": 3.0220699310302734, \"umap_y\": 6.443027019500732, \"name\": \"2NVU-C\", \"cluster_id\": 2, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": -2.974684715270996, \"umap_y\": 8.337225914001465, \"name\": \"3ZLB-A\", \"cluster_id\": 7, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 1.7992191314697266, \"umap_y\": 5.6042351722717285, \"name\": \"6C3O-A\", \"cluster_id\": 2, \"pred\": \"False\", \"binding_data\": false}, {\"umap_x\": -0.85286945104599, \"umap_y\": 7.443404674530029, \"name\": \"4BC2-A\", \"cluster_id\": 0, \"pred\": \"False\", \"binding_data\": false}, {\"umap_x\": -1.029653549194336, \"umap_y\": 6.333407402038574, \"name\": \"5X2L-A\", \"cluster_id\": 0, \"pred\": \"False\", \"binding_data\": false}, {\"umap_x\": 1.9323567152023315, \"umap_y\": 6.532866477966309, \"name\": \"1YCN-A\", \"cluster_id\": 2, \"pred\": \"False\", \"binding_data\": false}, {\"umap_x\": -2.422645092010498, \"umap_y\": 4.6236419677734375, \"name\": \"4YYE-A\", \"cluster_id\": 0, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 0.458346962928772, \"umap_y\": 1.618303894996643, \"name\": \"5WVI-K\", \"cluster_id\": 3, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 0.4149837791919708, \"umap_y\": 1.5573410987854004, \"name\": \"5WVI-L\", \"cluster_id\": 3, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 0.7868207693099976, \"umap_y\": 2.7503583431243896, \"name\": \"5XF8-3\", \"cluster_id\": 3, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 1.1008583307266235, \"umap_y\": 4.287731170654297, \"name\": \"5Y58-A\", \"cluster_id\": 8, \"pred\": \"False\", \"binding_data\": false}, {\"umap_x\": 1.135475993156433, \"umap_y\": 4.379631996154785, \"name\": \"5Y58-B\", \"cluster_id\": 8, \"pred\": \"False\", \"binding_data\": false}, {\"umap_x\": 1.8665956258773804, \"umap_y\": 5.58238410949707, \"name\": \"5SVM-A\", \"cluster_id\": 2, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 6.874131202697754, \"umap_y\": 3.0402393341064453, \"name\": \"4QTB-A\", \"cluster_id\": 4, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": -2.4591808319091797, \"umap_y\": 4.3379292488098145, \"name\": \"1LI5-A\", \"cluster_id\": 0, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 1.6919859647750854, \"umap_y\": 3.9852805137634277, \"name\": \"5UJ7-C\", \"cluster_id\": 5, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": -2.9385645389556885, \"umap_y\": 8.461012840270996, \"name\": \"5NP8-A\", \"cluster_id\": 7, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": -1.3823496103286743, \"umap_y\": 6.259339809417725, \"name\": \"4N0I-A\", \"cluster_id\": 0, \"pred\": \"False\", \"binding_data\": false}, {\"umap_x\": -1.4659866094589233, \"umap_y\": 6.860119342803955, \"name\": \"1T5A-A\", \"cluster_id\": 0, \"pred\": \"False\", \"binding_data\": false}, {\"umap_x\": -2.472990036010742, \"umap_y\": 8.868171691894531, \"name\": \"2AKY-A\", \"cluster_id\": 7, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": -1.4765875339508057, \"umap_y\": 2.2709062099456787, \"name\": \"5GW4-d\", \"cluster_id\": 1, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": -1.682053565979004, \"umap_y\": 2.103302240371704, \"name\": \"5GW4-h\", \"cluster_id\": 1, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 1.8838225603103638, \"umap_y\": 5.736177921295166, \"name\": \"3WGV-B\", \"cluster_id\": 2, \"pred\": \"False\", \"binding_data\": false}, {\"umap_x\": -1.6337413787841797, \"umap_y\": 2.1214427947998047, \"name\": \"4V94-A\", \"cluster_id\": 1, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 0.5865261554718018, \"umap_y\": 1.771396279335022, \"name\": \"5GJQ-J\", \"cluster_id\": 3, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": -1.1205363273620605, \"umap_y\": 1.9747095108032227, \"name\": \"4PL7-A\", \"cluster_id\": 1, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 2.5176777839660645, \"umap_y\": 6.61338996887207, \"name\": \"3BZH-A\", \"cluster_id\": 2, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": -1.8075295686721802, \"umap_y\": 8.86989974975586, \"name\": \"4Q1A-A\", \"cluster_id\": 7, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 0.4435639977455139, \"umap_y\": 4.63707160949707, \"name\": \"3R9I-A\", \"cluster_id\": 0, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 2.0292136669158936, \"umap_y\": 6.098957538604736, \"name\": \"3ONG-B\", \"cluster_id\": 2, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": -3.6999881267547607, \"umap_y\": 8.572216033935547, \"name\": \"5UI4-A\", \"cluster_id\": 10, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": -0.4125406742095947, \"umap_y\": 2.886303663253784, \"name\": \"2QXL-A\", \"cluster_id\": 3, \"pred\": \"True\", \"binding_data\": true}, {\"umap_x\": -0.7055305242538452, \"umap_y\": 7.342222213745117, \"name\": \"3RM5-A\", \"cluster_id\": 0, \"pred\": \"False\", \"binding_data\": false}, {\"umap_x\": 1.069442868232727, \"umap_y\": 4.894518852233887, \"name\": \"2QPT-A\", \"cluster_id\": 12, \"pred\": \"False\", \"binding_data\": false}, {\"umap_x\": 0.6828381419181824, \"umap_y\": 4.111447811126709, \"name\": \"5LD2-D\", \"cluster_id\": 8, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": -0.1232270747423172, \"umap_y\": 6.107732772827148, \"name\": \"1GZU-A\", \"cluster_id\": 0, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": -0.6333394646644592, \"umap_y\": 5.52154016494751, \"name\": \"4TVY-A\", \"cluster_id\": 0, \"pred\": \"False\", \"binding_data\": false}, {\"umap_x\": -2.097912311553955, \"umap_y\": 8.825819969177246, \"name\": \"2C9Y-A\", \"cluster_id\": 7, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 1.1544466018676758, \"umap_y\": 5.3349690437316895, \"name\": \"5NIK-J\", \"cluster_id\": 12, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 0.14050990343093872, \"umap_y\": 6.1796979904174805, \"name\": \"4X4W-A\", \"cluster_id\": 0, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 0.9485030770301819, \"umap_y\": 3.1471376419067383, \"name\": \"5I8Q-A\", \"cluster_id\": 3, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": -1.493678331375122, \"umap_y\": 6.809145927429199, \"name\": \"2J5V-A\", \"cluster_id\": 0, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 0.7920846939086914, \"umap_y\": 2.75700044631958, \"name\": \"3JC7-2\", \"cluster_id\": 3, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": -0.8736079335212708, \"umap_y\": 6.735636234283447, \"name\": \"3U0O-A\", \"cluster_id\": 0, \"pred\": \"False\", \"binding_data\": false}, {\"umap_x\": 0.6232116222381592, \"umap_y\": 4.8956522941589355, \"name\": \"2YZ2-A\", \"cluster_id\": 0, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": -0.004452758003026247, \"umap_y\": 5.730717658996582, \"name\": \"3HXT-A\", \"cluster_id\": 0, \"pred\": \"False\", \"binding_data\": false}, {\"umap_x\": -2.0084030628204346, \"umap_y\": 8.728998184204102, \"name\": \"1ZD8-A\", \"cluster_id\": 7, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 1.3758387565612793, \"umap_y\": 1.1344021558761597, \"name\": \"5SVA-Z\", \"cluster_id\": 11, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": -2.296304225921631, \"umap_y\": 5.035877704620361, \"name\": \"2VXO-A\", \"cluster_id\": 0, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": -0.29428720474243164, \"umap_y\": 2.8580515384674072, \"name\": \"2OHF-A\", \"cluster_id\": 3, \"pred\": \"False\", \"binding_data\": false}, {\"umap_x\": -0.2971998453140259, \"umap_y\": 2.868844985961914, \"name\": \"5EE0-A\", \"cluster_id\": 3, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 0.6453549861907959, \"umap_y\": 1.4618096351623535, \"name\": \"3JCO-J\", \"cluster_id\": 3, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": -0.3412446975708008, \"umap_y\": 7.132737636566162, \"name\": \"6B2E-C\", \"cluster_id\": 0, \"pred\": \"False\", \"binding_data\": false}, {\"umap_x\": 0.0630142092704773, \"umap_y\": 6.084006309509277, \"name\": \"1YOV-B\", \"cluster_id\": 0, \"pred\": \"False\", \"binding_data\": false}, {\"umap_x\": -3.7049777507781982, \"umap_y\": 8.578181266784668, \"name\": \"2BEF-A\", \"cluster_id\": 10, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 0.07982342690229416, \"umap_y\": 7.336222171783447, \"name\": \"1K6M-A\", \"cluster_id\": 0, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 5.274577617645264, \"umap_y\": 3.2392542362213135, \"name\": \"4LFI-A\", \"cluster_id\": 4, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": -0.8145507574081421, \"umap_y\": 2.8781707286834717, \"name\": \"4PJ1-A\", \"cluster_id\": 3, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": -0.3162264823913574, \"umap_y\": 3.228062391281128, \"name\": \"4PJ1-O\", \"cluster_id\": 3, \"pred\": \"False\", \"binding_data\": false}, {\"umap_x\": 1.3471094369888306, \"umap_y\": 5.141890525817871, \"name\": \"5DO7-A\", \"cluster_id\": 12, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 1.4278262853622437, \"umap_y\": 5.207248687744141, \"name\": \"5DO7-B\", \"cluster_id\": 12, \"pred\": \"False\", \"binding_data\": false}, {\"umap_x\": -2.867323398590088, \"umap_y\": 4.207583904266357, \"name\": \"1ATI-A\", \"cluster_id\": 0, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 1.0657387971878052, \"umap_y\": 3.0351402759552, \"name\": \"5GM6-Y\", \"cluster_id\": 3, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": -1.7297818660736084, \"umap_y\": 5.5056471824646, \"name\": \"6AT4-A\", \"cluster_id\": 0, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": -0.31713321805000305, \"umap_y\": 8.126420021057129, \"name\": \"4XYJ-A\", \"cluster_id\": 0, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 3.8246755599975586, \"umap_y\": 3.874391555786133, \"name\": \"6O8B-A\", \"cluster_id\": 4, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 1.5181725025177002, \"umap_y\": 3.4451398849487305, \"name\": \"5OQJ-0\", \"cluster_id\": 5, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 1.4549411535263062, \"umap_y\": 1.1033129692077637, \"name\": \"5OQJ-7\", \"cluster_id\": 11, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 0.6112200617790222, \"umap_y\": 1.732011318206787, \"name\": \"5WC0-A\", \"cluster_id\": 3, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": -1.674307942390442, \"umap_y\": 8.552386283874512, \"name\": \"5JZV-A\", \"cluster_id\": 7, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 4.985363960266113, \"umap_y\": 3.5294649600982666, \"name\": \"6HMD-A\", \"cluster_id\": 4, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 0.010101711377501488, \"umap_y\": 3.787691116333008, \"name\": \"1BDX-A\", \"cluster_id\": 3, \"pred\": \"False\", \"binding_data\": false}, {\"umap_x\": 6.844623565673828, \"umap_y\": 3.0372707843780518, \"name\": \"5NGU-A\", \"cluster_id\": 4, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": -1.957619071006775, \"umap_y\": 4.690535068511963, \"name\": \"4H3S-A\", \"cluster_id\": 0, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 5.399377822875977, \"umap_y\": 3.39345645904541, \"name\": \"4REW-A\", \"cluster_id\": 4, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 6.601097106933594, \"umap_y\": 2.8579957485198975, \"name\": \"4AU8-A\", \"cluster_id\": 4, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 0.9469574689865112, \"umap_y\": 6.4757466316223145, \"name\": \"4FRF-A\", \"cluster_id\": 0, \"pred\": \"False\", \"binding_data\": false}, {\"umap_x\": 0.6274442672729492, \"umap_y\": 2.467513084411621, \"name\": \"2IS4-A\", \"cluster_id\": 3, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 1.1505250930786133, \"umap_y\": 1.3575248718261719, \"name\": \"3JCR-F\", \"cluster_id\": 11, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": -0.9595855474472046, \"umap_y\": 7.27386474609375, \"name\": \"1WUU-A\", \"cluster_id\": 0, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 2.34167218208313, \"umap_y\": 6.432252883911133, \"name\": \"3E46-A\", \"cluster_id\": 2, \"pred\": \"False\", \"binding_data\": false}, {\"umap_x\": 0.6274943351745605, \"umap_y\": 6.247819423675537, \"name\": \"2O1P-A\", \"cluster_id\": 0, \"pred\": \"False\", \"binding_data\": false}, {\"umap_x\": -0.9711094498634338, \"umap_y\": 8.385313987731934, \"name\": \"2HW1-A\", \"cluster_id\": 0, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 1.3718979358673096, \"umap_y\": 1.2029510736465454, \"name\": \"3EIQ-A\", \"cluster_id\": 11, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": -2.136885166168213, \"umap_y\": 5.028614521026611, \"name\": \"2OJW-A\", \"cluster_id\": 0, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 2.750490665435791, \"umap_y\": 6.641747951507568, \"name\": \"3X07-A\", \"cluster_id\": 2, \"pred\": \"False\", \"binding_data\": false}, {\"umap_x\": -0.6397749781608582, \"umap_y\": 8.333935737609863, \"name\": \"4FOI-A\", \"cluster_id\": 0, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 1.826470971107483, \"umap_y\": 5.636208534240723, \"name\": \"5WUA-A\", \"cluster_id\": 2, \"pred\": \"False\", \"binding_data\": false}, {\"umap_x\": -0.9905799031257629, \"umap_y\": 6.900204658508301, \"name\": \"2H08-A\", \"cluster_id\": 0, \"pred\": \"False\", \"binding_data\": false}, {\"umap_x\": 6.10105037689209, \"umap_y\": 2.877558708190918, \"name\": \"4D28-A\", \"cluster_id\": 4, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": -1.3283642530441284, \"umap_y\": 4.698609828948975, \"name\": \"3EPJ-A\", \"cluster_id\": 0, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 1.1678932905197144, \"umap_y\": 6.5477094650268555, \"name\": \"4L02-A\", \"cluster_id\": 0, \"pred\": \"False\", \"binding_data\": false}, {\"umap_x\": -0.6623236536979675, \"umap_y\": 7.184466361999512, \"name\": \"2PYW-A\", \"cluster_id\": 0, \"pred\": \"False\", \"binding_data\": false}, {\"umap_x\": 3.013798236846924, \"umap_y\": 6.604135990142822, \"name\": \"3RCZ-B\", \"cluster_id\": 2, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": -0.51058030128479, \"umap_y\": 8.397128105163574, \"name\": \"1PFK-A\", \"cluster_id\": 0, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": -1.8426605463027954, \"umap_y\": 8.713810920715332, \"name\": \"3CH4-B\", \"cluster_id\": 7, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": -2.507368803024292, \"umap_y\": 4.335667610168457, \"name\": \"1LYL-A\", \"cluster_id\": 0, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": -1.172357439994812, \"umap_y\": 2.009746789932251, \"name\": \"1C0F-A\", \"cluster_id\": 1, \"pred\": \"True\", \"binding_data\": true}, {\"umap_x\": -1.9954824447631836, \"umap_y\": 8.660873413085938, \"name\": \"2FEM-A\", \"cluster_id\": 7, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 5.808859825134277, \"umap_y\": 3.654825448989868, \"name\": \"6DTL-A\", \"cluster_id\": 4, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 0.11188209056854248, \"umap_y\": 5.330763339996338, \"name\": \"2F9Y-B\", \"cluster_id\": 0, \"pred\": \"False\", \"binding_data\": false}, {\"umap_x\": 6.800513744354248, \"umap_y\": 3.0574517250061035, \"name\": \"5AWM-A\", \"cluster_id\": 4, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 0.42410239577293396, \"umap_y\": 5.851347923278809, \"name\": \"3KYC-B\", \"cluster_id\": 0, \"pred\": \"False\", \"binding_data\": false}, {\"umap_x\": 6.034450054168701, \"umap_y\": 3.448127508163452, \"name\": \"2H8H-A\", \"cluster_id\": 4, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": -2.624251365661621, \"umap_y\": 4.223188400268555, \"name\": \"2RD2-A\", \"cluster_id\": 0, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": -0.028443479910492897, \"umap_y\": 6.437417507171631, \"name\": \"5Z9R-A\", \"cluster_id\": 0, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 1.2829121351242065, \"umap_y\": 6.04127311706543, \"name\": \"5XTI-W\", \"cluster_id\": 9, \"pred\": \"False\", \"binding_data\": false}, {\"umap_x\": -1.0817112922668457, \"umap_y\": 8.27961254119873, \"name\": \"2F7K-A\", \"cluster_id\": 0, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 5.960575580596924, \"umap_y\": 3.3793444633483887, \"name\": \"3PFQ-A\", \"cluster_id\": 4, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": -2.6884958744049072, \"umap_y\": 4.422846794128418, \"name\": \"4ARC-A\", \"cluster_id\": 0, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 6.193144798278809, \"umap_y\": 3.2409913539886475, \"name\": \"2OZO-A\", \"cluster_id\": 4, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": -0.699745774269104, \"umap_y\": 7.713847637176514, \"name\": \"2R42-A\", \"cluster_id\": 0, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": -1.6057597398757935, \"umap_y\": 6.638318061828613, \"name\": \"1E0T-A\", \"cluster_id\": 0, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 6.530280113220215, \"umap_y\": 2.9140849113464355, \"name\": \"3MIA-A\", \"cluster_id\": 4, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": -2.3482627868652344, \"umap_y\": 4.57794713973999, \"name\": \"3L4G-A\", \"cluster_id\": 0, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": -0.8697075247764587, \"umap_y\": 5.3588480949401855, \"name\": \"3L4G-B\", \"cluster_id\": 0, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": -1.0833890438079834, \"umap_y\": 5.207289695739746, \"name\": \"5R1R-A\", \"cluster_id\": 0, \"pred\": \"False\", \"binding_data\": false}, {\"umap_x\": -2.3981692790985107, \"umap_y\": 8.887709617614746, \"name\": \"1UKY-A\", \"cluster_id\": 7, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": -1.9918681383132935, \"umap_y\": 5.112288475036621, \"name\": \"1GLV-A\", \"cluster_id\": 0, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 2.4549527168273926, \"umap_y\": 6.73582124710083, \"name\": \"5KHR-Q\", \"cluster_id\": 2, \"pred\": \"False\", \"binding_data\": false}, {\"umap_x\": 1.3995333909988403, \"umap_y\": 2.6611735820770264, \"name\": \"1SXJ-B\", \"cluster_id\": 5, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 1.3959280252456665, \"umap_y\": 2.8066437244415283, \"name\": \"1SXJ-C\", \"cluster_id\": 5, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 1.3369277715682983, \"umap_y\": 2.5681374073028564, \"name\": \"1SXJ-D\", \"cluster_id\": 5, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 1.4683650732040405, \"umap_y\": 2.826655864715576, \"name\": \"1SXJ-E\", \"cluster_id\": 5, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 2.170274019241333, \"umap_y\": 6.25282096862793, \"name\": \"2CYX-A\", \"cluster_id\": 2, \"pred\": \"False\", \"binding_data\": false}, {\"umap_x\": 0.9427213072776794, \"umap_y\": 4.000031471252441, \"name\": \"3JC6-4\", \"cluster_id\": 8, \"pred\": \"False\", \"binding_data\": false}, {\"umap_x\": -0.37543466687202454, \"umap_y\": 2.897758722305298, \"name\": \"5E84-A\", \"cluster_id\": 3, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 5.2042646408081055, \"umap_y\": 3.609984874725342, \"name\": \"3SOA-A\", \"cluster_id\": 4, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 3.592902421951294, \"umap_y\": 4.12667179107666, \"name\": \"6FAI-l\", \"cluster_id\": 4, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 5.437215805053711, \"umap_y\": 3.452935218811035, \"name\": \"3ZUT-A\", \"cluster_id\": 4, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": -0.7952078580856323, \"umap_y\": 5.429368495941162, \"name\": \"11AS-A\", \"cluster_id\": 0, \"pred\": \"False\", \"binding_data\": false}, {\"umap_x\": 0.8746247887611389, \"umap_y\": 2.7841923236846924, \"name\": \"5BK4-5\", \"cluster_id\": 3, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": -0.05509544909000397, \"umap_y\": 3.620342254638672, \"name\": \"1PIL-A\", \"cluster_id\": 3, \"pred\": \"False\", \"binding_data\": false}, {\"umap_x\": 2.7491953372955322, \"umap_y\": 6.583897590637207, \"name\": \"1QCQ-A\", \"cluster_id\": 2, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 6.46563196182251, \"umap_y\": 3.6395950317382812, \"name\": \"3GC9-A\", \"cluster_id\": 4, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 6.14761209487915, \"umap_y\": 3.204742670059204, \"name\": \"1K9A-A\", \"cluster_id\": 4, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 0.6484714150428772, \"umap_y\": 4.8827223777771, \"name\": \"3TUJ-C\", \"cluster_id\": 0, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": -1.870654582977295, \"umap_y\": 8.843295097351074, \"name\": \"2A30-A\", \"cluster_id\": 7, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 0.26566609740257263, \"umap_y\": 2.6567254066467285, \"name\": \"1ZVU-A\", \"cluster_id\": 3, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 2.1564342975616455, \"umap_y\": 6.348870754241943, \"name\": \"4W5V-A\", \"cluster_id\": 2, \"pred\": \"False\", \"binding_data\": false}, {\"umap_x\": -1.3147352933883667, \"umap_y\": 6.578165531158447, \"name\": \"5GRH-B\", \"cluster_id\": 0, \"pred\": \"False\", \"binding_data\": false}, {\"umap_x\": 0.0841325893998146, \"umap_y\": 3.8677661418914795, \"name\": \"5ZZM-A\", \"cluster_id\": 3, \"pred\": \"False\", \"binding_data\": false}, {\"umap_x\": 0.548575758934021, \"umap_y\": 5.1299004554748535, \"name\": \"4DBL-C\", \"cluster_id\": 0, \"pred\": \"False\", \"binding_data\": false}, {\"umap_x\": -2.9310696125030518, \"umap_y\": 8.39001750946045, \"name\": \"1FW8-A\", \"cluster_id\": 7, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": -2.4375545978546143, \"umap_y\": 8.876150131225586, \"name\": \"1Z83-A\", \"cluster_id\": 7, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": -0.7300756573677063, \"umap_y\": 3.8670856952667236, \"name\": \"3OFN-A\", \"cluster_id\": 13, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 0.5224782824516296, \"umap_y\": 6.1202592849731445, \"name\": \"4LIM-A\", \"cluster_id\": 0, \"pred\": \"False\", \"binding_data\": false}, {\"umap_x\": 6.365726947784424, \"umap_y\": 2.8686909675598145, \"name\": \"5X3F-B\", \"cluster_id\": 4, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": -0.4083475172519684, \"umap_y\": 8.232650756835938, \"name\": \"3B8A-X\", \"cluster_id\": 0, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 3.9341845512390137, \"umap_y\": 4.113158702850342, \"name\": \"4DA5-A\", \"cluster_id\": 4, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 2.264833450317383, \"umap_y\": 6.371166706085205, \"name\": \"1X23-A\", \"cluster_id\": 2, \"pred\": \"False\", \"binding_data\": false}, {\"umap_x\": -1.3074215650558472, \"umap_y\": 5.83687686920166, \"name\": \"3RG2-A\", \"cluster_id\": 0, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": -3.7501893043518066, \"umap_y\": 8.593100547790527, \"name\": \"3B54-A\", \"cluster_id\": 10, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 0.13817228376865387, \"umap_y\": 7.037230968475342, \"name\": \"1QK1-A\", \"cluster_id\": 0, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": -0.8442444801330566, \"umap_y\": 5.40083122253418, \"name\": \"1VA6-A\", \"cluster_id\": 0, \"pred\": \"False\", \"binding_data\": false}, {\"umap_x\": -1.237322449684143, \"umap_y\": 5.161151885986328, \"name\": \"2ZLF-A\", \"cluster_id\": 0, \"pred\": \"False\", \"binding_data\": false}, {\"umap_x\": 5.578730583190918, \"umap_y\": 3.27972674369812, \"name\": \"3UC3-A\", \"cluster_id\": 4, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": -0.2553594708442688, \"umap_y\": 3.317098617553711, \"name\": \"1SVT-O\", \"cluster_id\": 3, \"pred\": \"False\", \"binding_data\": false}, {\"umap_x\": -2.276822566986084, \"umap_y\": 8.889528274536133, \"name\": \"2TMK-A\", \"cluster_id\": 7, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 1.3772470951080322, \"umap_y\": 1.1616830825805664, \"name\": \"5SUQ-A\", \"cluster_id\": 11, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 0.14319419860839844, \"umap_y\": 7.135066032409668, \"name\": \"1QH4-A\", \"cluster_id\": 0, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": -0.8268961906433105, \"umap_y\": 6.666998386383057, \"name\": \"4S2U-A\", \"cluster_id\": 0, \"pred\": \"False\", \"binding_data\": false}, {\"umap_x\": -1.6394803524017334, \"umap_y\": 5.869845867156982, \"name\": \"1RY2-A\", \"cluster_id\": 0, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 2.259653329849243, \"umap_y\": 6.52545690536499, \"name\": \"4R8P-L\", \"cluster_id\": 2, \"pred\": \"False\", \"binding_data\": false}, {\"umap_x\": -1.4865645170211792, \"umap_y\": 4.958521366119385, \"name\": \"2H31-A\", \"cluster_id\": 0, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 0.3728365898132324, \"umap_y\": 6.283839225769043, \"name\": \"6O81-C\", \"cluster_id\": 0, \"pred\": \"False\", \"binding_data\": false}, {\"umap_x\": -2.6811251640319824, \"umap_y\": 4.326094150543213, \"name\": \"1QF6-A\", \"cluster_id\": 0, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 1.5299201011657715, \"umap_y\": 3.4728057384490967, \"name\": \"5IY7-W\", \"cluster_id\": 5, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": -0.5776755809783936, \"umap_y\": 3.9614787101745605, \"name\": \"1NL3-A\", \"cluster_id\": 13, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": -1.6872985363006592, \"umap_y\": 2.16062593460083, \"name\": \"4V8R-AB\", \"cluster_id\": 1, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": -1.5698497295379639, \"umap_y\": 2.2007040977478027, \"name\": \"4V8R-AE\", \"cluster_id\": 1, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 0.4552820324897766, \"umap_y\": 1.849234938621521, \"name\": \"6EF3-H\", \"cluster_id\": 3, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 0.4499782919883728, \"umap_y\": 2.3067357540130615, \"name\": \"3LDA-A\", \"cluster_id\": 3, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 6.830562114715576, \"umap_y\": 2.960980176925659, \"name\": \"4KRC-A\", \"cluster_id\": 4, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 3.0727338790893555, \"umap_y\": 6.58870792388916, \"name\": \"2UCZ-A\", \"cluster_id\": 2, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 0.6989176869392395, \"umap_y\": 1.8645076751708984, \"name\": \"5ZWN-y\", \"cluster_id\": 3, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 2.198010206222534, \"umap_y\": 6.420016288757324, \"name\": \"2IQX-A\", \"cluster_id\": 2, \"pred\": \"False\", \"binding_data\": false}, {\"umap_x\": -1.2611956596374512, \"umap_y\": 6.68526029586792, \"name\": \"1L1F-A\", \"cluster_id\": 0, \"pred\": \"False\", \"binding_data\": false}, {\"umap_x\": -0.5122628808021545, \"umap_y\": 8.401439666748047, \"name\": \"5KPT-A\", \"cluster_id\": 0, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 0.7691853642463684, \"umap_y\": 3.063586711883545, \"name\": \"6ID1-V\", \"cluster_id\": 3, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": -0.7010332345962524, \"umap_y\": 3.8522696495056152, \"name\": \"2XOK-D\", \"cluster_id\": 13, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": -0.6617594361305237, \"umap_y\": 8.221458435058594, \"name\": \"5ZQT-A\", \"cluster_id\": 0, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": -2.9859132766723633, \"umap_y\": 8.439482688903809, \"name\": \"2PAA-A\", \"cluster_id\": 7, \"pred\": \"True\", \"binding_data\": true}, {\"umap_x\": -2.591813802719116, \"umap_y\": 4.262389659881592, \"name\": \"4J15-A\", \"cluster_id\": 0, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 3.0621299743652344, \"umap_y\": 6.6270976066589355, \"name\": \"2Y9P-A\", \"cluster_id\": 2, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 0.19195419549942017, \"umap_y\": 7.0683393478393555, \"name\": \"4Z9M-A\", \"cluster_id\": 0, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": -0.07377378642559052, \"umap_y\": 5.723629951477051, \"name\": \"5A5Y-A\", \"cluster_id\": 0, \"pred\": \"False\", \"binding_data\": false}, {\"umap_x\": -0.6105946898460388, \"umap_y\": 3.7473790645599365, \"name\": \"2FSI-A\", \"cluster_id\": 13, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 0.2499004751443863, \"umap_y\": 1.91118586063385, \"name\": \"2KIN-A\", \"cluster_id\": 3, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 6.749690532684326, \"umap_y\": 3.019078254699707, \"name\": \"1JNK-A\", \"cluster_id\": 4, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 0.22191135585308075, \"umap_y\": 3.831181764602661, \"name\": \"3ICE-A\", \"cluster_id\": 3, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": -1.34952974319458, \"umap_y\": 6.78802490234375, \"name\": \"4IP7-A\", \"cluster_id\": 0, \"pred\": \"False\", \"binding_data\": false}, {\"umap_x\": -0.43574053049087524, \"umap_y\": 6.8790812492370605, \"name\": \"2HGS-A\", \"cluster_id\": 0, \"pred\": \"False\", \"binding_data\": false}, {\"umap_x\": 2.923292875289917, \"umap_y\": 6.4745097160339355, \"name\": \"5NGZ-A\", \"cluster_id\": 2, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": -2.3891873359680176, \"umap_y\": 4.260970115661621, \"name\": \"2PME-A\", \"cluster_id\": 0, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 6.505390167236328, \"umap_y\": 2.8557240962982178, \"name\": \"4WB7-A\", \"cluster_id\": 4, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 1.6326249837875366, \"umap_y\": 5.132673740386963, \"name\": \"4H1G-A\", \"cluster_id\": 12, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 1.552951455116272, \"umap_y\": 4.31958532333374, \"name\": \"4M9Z-A\", \"cluster_id\": 5, \"pred\": \"False\", \"binding_data\": false}, {\"umap_x\": 4.944980144500732, \"umap_y\": 3.576770544052124, \"name\": \"4MD7-E\", \"cluster_id\": 4, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 0.6168542504310608, \"umap_y\": 1.6012113094329834, \"name\": \"5VY8-A\", \"cluster_id\": 3, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 0.5256271958351135, \"umap_y\": 2.573174238204956, \"name\": \"6GEJ-T\", \"cluster_id\": 3, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 0.5484321117401123, \"umap_y\": 2.4613864421844482, \"name\": \"6GEJ-U\", \"cluster_id\": 3, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": -2.656820058822632, \"umap_y\": 4.149048328399658, \"name\": \"2EL9-A\", \"cluster_id\": 0, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 5.843928813934326, \"umap_y\": 3.5884790420532227, \"name\": \"4RC3-A\", \"cluster_id\": 4, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": -0.801121175289154, \"umap_y\": 8.48241901397705, \"name\": \"5C40-A\", \"cluster_id\": 0, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": -0.6847493052482605, \"umap_y\": 3.79939341545105, \"name\": \"3J9V-F\", \"cluster_id\": 13, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": -2.112828493118286, \"umap_y\": 5.218242645263672, \"name\": \"2NZ2-A\", \"cluster_id\": 0, \"pred\": \"False\", \"binding_data\": false}, {\"umap_x\": 5.756683826446533, \"umap_y\": 3.6718318462371826, \"name\": \"3BGP-A\", \"cluster_id\": 4, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 5.285577774047852, \"umap_y\": 3.5386760234832764, \"name\": \"3EQC-A\", \"cluster_id\": 4, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 4.412687301635742, \"umap_y\": 3.8048715591430664, \"name\": \"5HTK-A\", \"cluster_id\": 4, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 0.459587037563324, \"umap_y\": 5.008530616760254, \"name\": \"1DTS-A\", \"cluster_id\": 0, \"pred\": \"False\", \"binding_data\": false}, {\"umap_x\": 1.1704331636428833, \"umap_y\": 1.2754237651824951, \"name\": \"2HYI-C\", \"cluster_id\": 11, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 5.339186668395996, \"umap_y\": 3.514803647994995, \"name\": \"5Y86-A\", \"cluster_id\": 4, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": -2.3356897830963135, \"umap_y\": 4.734251022338867, \"name\": \"3TUP-A\", \"cluster_id\": 0, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 0.05852586030960083, \"umap_y\": 5.495998859405518, \"name\": \"2EWN-A\", \"cluster_id\": 0, \"pred\": \"False\", \"binding_data\": false}, {\"umap_x\": 1.2925132513046265, \"umap_y\": 1.2996994256973267, \"name\": \"6CB1-p\", \"cluster_id\": 11, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 0.7577007412910461, \"umap_y\": 3.123936414718628, \"name\": \"3JVU-A\", \"cluster_id\": 3, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 6.438618183135986, \"umap_y\": 2.807568073272705, \"name\": \"6GU6-A\", \"cluster_id\": 4, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": -1.3057178258895874, \"umap_y\": 6.882640838623047, \"name\": \"1GLD-G\", \"cluster_id\": 0, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 0.630021333694458, \"umap_y\": 2.2646920680999756, \"name\": \"6QI8-A\", \"cluster_id\": 3, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": -2.5114781856536865, \"umap_y\": 8.840315818786621, \"name\": \"1P4S-A\", \"cluster_id\": 7, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 2.474496841430664, \"umap_y\": 6.345510005950928, \"name\": \"6JB6-A\", \"cluster_id\": 2, \"pred\": \"False\", \"binding_data\": false}, {\"umap_x\": -0.6920178532600403, \"umap_y\": 2.9536643028259277, \"name\": \"4AAR-A\", \"cluster_id\": 3, \"pred\": \"True\", \"binding_data\": true}, {\"umap_x\": 0.33452925086021423, \"umap_y\": 2.7358131408691406, \"name\": \"3THY-A\", \"cluster_id\": 3, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 5.255561351776123, \"umap_y\": 3.780559778213501, \"name\": \"4TNB-A\", \"cluster_id\": 4, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": -2.0235185623168945, \"umap_y\": 8.76068115234375, \"name\": \"2IYT-A\", \"cluster_id\": 7, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": -0.9720736145973206, \"umap_y\": 6.298552513122559, \"name\": \"3L6C-A\", \"cluster_id\": 0, \"pred\": \"False\", \"binding_data\": false}, {\"umap_x\": -0.9295247197151184, \"umap_y\": 8.367551803588867, \"name\": \"5KB6-A\", \"cluster_id\": 0, \"pred\": \"False\", \"binding_data\": false}, {\"umap_x\": 2.7203547954559326, \"umap_y\": 6.748767375946045, \"name\": \"4II2-C\", \"cluster_id\": 2, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": -0.4921881854534149, \"umap_y\": 8.38759994506836, \"name\": \"5HFU-A\", \"cluster_id\": 0, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 1.797716736793518, \"umap_y\": 6.62829065322876, \"name\": \"2E0A-A\", \"cluster_id\": 2, \"pred\": \"False\", \"binding_data\": false}, {\"umap_x\": 6.763019561767578, \"umap_y\": 3.149756908416748, \"name\": \"2F9G-A\", \"cluster_id\": 4, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 5.349737167358398, \"umap_y\": 3.145768880844116, \"name\": \"5XVU-A\", \"cluster_id\": 4, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 2.5662124156951904, \"umap_y\": 6.559691905975342, \"name\": \"4X57-A\", \"cluster_id\": 2, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 4.533024311065674, \"umap_y\": 3.8461520671844482, \"name\": \"4JA9-A\", \"cluster_id\": 4, \"pred\": \"False\", \"binding_data\": false}, {\"umap_x\": -3.753068447113037, \"umap_y\": 8.647881507873535, \"name\": \"4ANE-A\", \"cluster_id\": 10, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 0.4933205842971802, \"umap_y\": 6.17161226272583, \"name\": \"3OTB-A\", \"cluster_id\": 0, \"pred\": \"False\", \"binding_data\": false}, {\"umap_x\": 6.543515682220459, \"umap_y\": 2.9911019802093506, \"name\": \"2W96-B\", \"cluster_id\": 4, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": -1.589377522468567, \"umap_y\": 2.1826484203338623, \"name\": \"5GW5-g\", \"cluster_id\": 1, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": -1.5418293476104736, \"umap_y\": 2.1354968547821045, \"name\": \"5GW5-q\", \"cluster_id\": 1, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": -1.6661591529846191, \"umap_y\": 2.09086537361145, \"name\": \"5GW5-z\", \"cluster_id\": 1, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 1.7240785360336304, \"umap_y\": 6.6059160232543945, \"name\": \"1Y8N-A\", \"cluster_id\": 2, \"pred\": \"False\", \"binding_data\": false}, {\"umap_x\": -0.38883012533187866, \"umap_y\": 2.9445412158966064, \"name\": \"4JN4-A\", \"cluster_id\": 3, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 0.526955783367157, \"umap_y\": 4.706851482391357, \"name\": \"6MHU-A\", \"cluster_id\": 0, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": -2.1967146396636963, \"umap_y\": 8.860575675964355, \"name\": \"1TEV-A\", \"cluster_id\": 7, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": -2.1447832584381104, \"umap_y\": 4.283499240875244, \"name\": \"4X5O-A\", \"cluster_id\": 0, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 4.792586803436279, \"umap_y\": 3.911494493484497, \"name\": \"3PVW-A\", \"cluster_id\": 4, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 2.8332881927490234, \"umap_y\": 6.511231899261475, \"name\": \"2AWF-A\", \"cluster_id\": 2, \"pred\": \"False\", \"binding_data\": false}, {\"umap_x\": 5.810364723205566, \"umap_y\": 3.6701109409332275, \"name\": \"3VN9-A\", \"cluster_id\": 4, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 2.1539273262023926, \"umap_y\": 6.385103225708008, \"name\": \"1BEH-A\", \"cluster_id\": 2, \"pred\": \"False\", \"binding_data\": false}, {\"umap_x\": -0.921436607837677, \"umap_y\": 5.288109302520752, \"name\": \"2ZB2-A\", \"cluster_id\": 0, \"pred\": \"False\", \"binding_data\": false}, {\"umap_x\": 5.808849334716797, \"umap_y\": 3.640777826309204, \"name\": \"5TUR-A\", \"cluster_id\": 4, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": -2.540908098220825, \"umap_y\": 3.958425283432007, \"name\": \"5B63-A\", \"cluster_id\": 0, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": -0.08114597201347351, \"umap_y\": 5.650249481201172, \"name\": \"1HRU-A\", \"cluster_id\": 0, \"pred\": \"False\", \"binding_data\": false}, {\"umap_x\": -1.9275591373443604, \"umap_y\": 8.582111358642578, \"name\": \"4TMK-A\", \"cluster_id\": 7, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 1.2843925952911377, \"umap_y\": 1.1992007493972778, \"name\": \"5IY9-V\", \"cluster_id\": 11, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 0.5617135763168335, \"umap_y\": 1.4920752048492432, \"name\": \"3JCP-I\", \"cluster_id\": 3, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 0.4308463931083679, \"umap_y\": 5.9557600021362305, \"name\": \"3UDT-A\", \"cluster_id\": 0, \"pred\": \"False\", \"binding_data\": false}, {\"umap_x\": 3.0268428325653076, \"umap_y\": 6.5514373779296875, \"name\": \"1JAT-A\", \"cluster_id\": 2, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 1.5070234537124634, \"umap_y\": 5.166471004486084, \"name\": \"5NJ3-A\", \"cluster_id\": 12, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": -1.6660852432250977, \"umap_y\": 8.578123092651367, \"name\": \"3IIK-A\", \"cluster_id\": 7, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 6.486886978149414, \"umap_y\": 2.8820605278015137, \"name\": \"5FQD-C\", \"cluster_id\": 4, \"pred\": \"True\", \"binding_data\": false}]}}, {\"mode\": \"vega-lite\"});\n",
       "</script>"
      ],
      "text/plain": [
       "alt.Chart(...)"
      ]
     },
     "execution_count": 10,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "import altair as alt\n",
    "\n",
    "points = alt.Chart(df).mark_point(\n",
    "    filled=True,\n",
    "    size=36,    \n",
    ").encode(\n",
    "    alt.X('umap_x:Q',\n",
    "        scale=alt.Scale(\n",
    "            domain=(0, 10.5),\n",
    "            clamp=True\n",
    "        )\n",
    "    ),\n",
    "    alt.Y('umap_y:Q',\n",
    "        scale=alt.Scale(\n",
    "            domain=(5, 14),\n",
    "            clamp=True\n",
    "        )\n",
    "    ),\n",
    "    shape = alt.Shape(\n",
    "       \"pred:N\",\n",
    "        scale = alt.Scale(range=[\"triangle\", \"circle\"],zero=True)),\n",
    "    color='cluster_id:N'\n",
    ").properties(\n",
    "    width=600,\n",
    "    height=600\n",
    ")\n",
    "\n",
    "text = points.mark_text(\n",
    "    align='left',\n",
    "    baseline='middle',\n",
    "    dx=7,\n",
    "    color='black'\n",
    ").encode(\n",
    "    text='name'\n",
    ")\n",
    "\n",
    "points.interactive()"
   ]
  },
  {
   "cell_type": "markdown",
   "id": "217c0995",
   "metadata": {},
   "source": [
    "## Integrated Gradients (from Sequence Embeddings)"
   ]
  },
  {
   "cell_type": "markdown",
   "id": "502e1207",
   "metadata": {},
   "source": [
    "Create baseline reference sequences using [SEP] tokens. The reference sequence should have the same length as the baseline sequence."
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 14,
   "id": "7c492e35",
   "metadata": {},
   "outputs": [],
   "source": [
    "from transformers import BertTokenizer\n",
    "\n",
    "tokenizer = BertTokenizer.from_pretrained(\n",
    "            \"Rostlab/prot_bert\", do_lower_case=False)\n",
    "\n",
    "def construct_input_ref_pair(input_ids, attention_mask):\n",
    "    ref_token_id = tokenizer.pad_token_id # A token used for generating token reference\n",
    "    sep_token_id = tokenizer.sep_token_id # A token used as a separator between question and text and it is also added to the end of the text.\n",
    "    cls_token_id = tokenizer.cls_token_id # A token used for prepending to the concatenated question-text word sequence    \n",
    "\n",
    "    ref_input_ids = input_ids.clone()\n",
    "    ref_input_ids[attention_mask>0] = ref_token_id\n",
    "    ref_input_ids[0] = cls_token_id\n",
    "    ref_input_ids[ref_input_ids[attention_mask>0].shape[0]-1] = sep_token_id\n",
    "    \n",
    "    return input_ids.clone().unsqueeze(0), ref_input_ids.unsqueeze(0)"
   ]
  },
  {
   "cell_type": "markdown",
   "id": "ab8c738a",
   "metadata": {},
   "source": [
    "Wrap the original model to get the model output for a particular molecular function. The molecular function is selected using `label_idx`."
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 15,
   "id": "78f82a51",
   "metadata": {},
   "outputs": [],
   "source": [
    "def get_forward_func_wrapper(label_idx):\n",
    "    def wrapper(input_ids, additional_forward_args=None):\n",
    "        batch = additional_forward_args\n",
    "        model_out = model(batch, input_ids=input_ids)\n",
    "        return model_out[:,label_idx]\n",
    "    return wrapper"
   ]
  },
  {
   "cell_type": "markdown",
   "id": "38a2718d",
   "metadata": {},
   "source": [
    "The `LayerIntegratedGradientsRevisited` class is created to resolve out of memory issues caused by large bert models:"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 16,
   "id": "5640053d",
   "metadata": {},
   "outputs": [],
   "source": [
    "from captum.attr import GradientAttribution, LayerAttribution\n",
    "\n",
    "from captum._utils.gradient import _forward_layer_eval, _run_forward\n",
    "from captum._utils.common import (\n",
    "    _extract_device\n",
    ")\n",
    "from torch.nn.parallel.scatter_gather import scatter\n",
    "\n",
    "class LayerIntegratedGradientsRevisited(LayerAttribution, GradientAttribution):\n",
    "    def __init__(\n",
    "        self,\n",
    "        forward_func,\n",
    "        layer,\n",
    "        device_ids = None,\n",
    "        multiply_by_inputs = True,\n",
    "    ):\n",
    "\n",
    "        r\"\"\"\n",
    "        Args:\n",
    "            forward_func (callable):  The forward function of the model or any\n",
    "                    modification of it\n",
    "            multiply_by_inputs (bool, optional): Indicates whether to factor\n",
    "                    model inputs' multiplier in the final attribution scores.\n",
    "                    More detailed can be found here:\n",
    "                    https://arxiv.org/abs/1711.06104\n",
    "                    In case of integrated gradients, if `multiply_by_inputs`\n",
    "                    is set to True, final sensitivity scores are being multiplied by\n",
    "                    (inputs - baselines).\n",
    "        \"\"\"\n",
    "        LayerAttribution.__init__(self, forward_func, layer, device_ids=device_ids)\n",
    "        GradientAttribution.__init__(self, forward_func)\n",
    "        self.multiply_by_inputs = multiply_by_inputs\n",
    "\n",
    "            \n",
    "    def attribute(\n",
    "        self,\n",
    "        inputs,\n",
    "        baselines = None,\n",
    "        target = None,\n",
    "        additional_forward_args = None,\n",
    "        n_steps = 50,\n",
    "        internal_batch_size = None\n",
    "    ):\n",
    "\n",
    "        if self.device_ids is None:\n",
    "            self.device_ids = getattr(self.forward_func, \"device_ids\", None)\n",
    "\n",
    "        inputs_layer = _forward_layer_eval(\n",
    "            self.forward_func,\n",
    "            inputs,\n",
    "            self.layer,\n",
    "            device_ids=self.device_ids,\n",
    "            additional_forward_args=additional_forward_args\n",
    "        )\n",
    "        \n",
    "        inputs_layer = inputs_layer[0]\n",
    "        \n",
    "        baselines_layer = _forward_layer_eval(\n",
    "            self.forward_func,\n",
    "            baselines,\n",
    "            self.layer,\n",
    "            device_ids=self.device_ids,\n",
    "            additional_forward_args=additional_forward_args\n",
    "        )\n",
    "        \n",
    "        baselines_layer = baselines_layer[0]\n",
    "                \n",
    "#         print(torch.abs((inputs_layer-baselines_layer)).sum())\n",
    "\n",
    "        # inputs -> these inputs are scaled\n",
    "        def gradient_func(\n",
    "            forward_fn,\n",
    "            inputs,\n",
    "            target = None,\n",
    "            additional_forward_args = None,\n",
    "        ):\n",
    "            if self.device_ids is None or len(self.device_ids) == 0:\n",
    "                scattered_inputs = (inputs,)\n",
    "            else:\n",
    "                # scatter method does not have a precise enough return type in its\n",
    "                # stub, so suppress the type warning.\n",
    "                scattered_inputs = scatter(  # type:ignore\n",
    "                    inputs, target_gpus=self.device_ids\n",
    "                )\n",
    "\n",
    "            scattered_inputs_dict = {\n",
    "                scattered_input[0].device: scattered_input\n",
    "                for scattered_input in scattered_inputs\n",
    "            }\n",
    "\n",
    "            with torch.autograd.set_grad_enabled(True):\n",
    "\n",
    "                def layer_forward_hook(\n",
    "                    module, hook_inputs, hook_outputs=None\n",
    "                ):\n",
    "                    device = _extract_device(module, hook_inputs, hook_outputs)\n",
    "                    return scattered_inputs_dict[device]\n",
    "\n",
    "                hook = None\n",
    "                try:\n",
    "                    layer = self.layer\n",
    "                    hook = layer.register_forward_hook(layer_forward_hook)\n",
    "                    output = _run_forward(\n",
    "                        self.forward_func, baselines, target, \n",
    "                            additional_forward_args=additional_forward_args)\n",
    "                finally:\n",
    "                    if hook is not None:\n",
    "                        hook.remove()\n",
    "\n",
    "                assert output[0].numel() == 1, (\n",
    "                    \"Target not provided when necessary, cannot\"\n",
    "                    \" take gradient with respect to multiple outputs.\"\n",
    "                )\n",
    "                # torch.unbind(forward_out) is a list of scalar tensor tuples and\n",
    "                # contains batch_size * #steps elements\n",
    "                grads = torch.autograd.grad(torch.unbind(output), inputs)\n",
    "            return grads\n",
    "        \n",
    "        \n",
    "        alphas = [i*1.0/n_steps for i in range(n_steps+1)]\n",
    "        grads = []\n",
    "        final_grad = None\n",
    "        for i, alpha in enumerate(alphas):\n",
    "            \n",
    "#             print(inputs_layer.shape, baselines_layer.shape, baselines.size())\n",
    "            _inputs = (baselines_layer + alpha * (inputs_layer - baselines_layer)).requires_grad_()\n",
    "            # grads: dim -> (bsz * #steps x inputs[0].shape[1:], ...)\n",
    "            grad = gradient_func(\n",
    "                forward_fn=self.forward_func,\n",
    "                inputs=_inputs,\n",
    "                target=target,\n",
    "                additional_forward_args=additional_forward_args,\n",
    "            )\n",
    "            grads.append(grad[0].detach())\n",
    "            \n",
    "            if i == n_steps:\n",
    "                final_grad = grad[0].detach()\n",
    "            \n",
    "        grads = torch.stack(grads, dim=-1)\n",
    "        \n",
    "        #calculate integration using trapzoid rule\n",
    "        integral = ((grads[:,:,:-1] + grads[:,:,1:]) / 2 ).sum(dim=-1)\n",
    "        saliency = integral\n",
    "        \n",
    "        if self.multiply_by_inputs:\n",
    "            saliency = saliency * (inputs_layer - baselines_layer)\n",
    "            \n",
    "        saliency = saliency.sum(dim=-1).squeeze()\n",
    "        \n",
    "        # calculate gradient norm\n",
    "        gradient_norm = final_grad\n",
    "        \n",
    "        return saliency, gradient_norm\n",
    "\n",
    "    def has_convergence_delta(self):\n",
    "        return True\n",
    "\n",
    "    def multiplies_by_inputs(self):\n",
    "        return self.multiplies_by_inputs"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 17,
   "id": "3324dab3",
   "metadata": {},
   "outputs": [],
   "source": [
    "from torch_geometric.data import DataLoader\n",
    "from torch.utils import data\n",
    "\n",
    "def get_ig_attribution(mf_term, data_indice):\n",
    "    label_index = name_indices[mf_term]\n",
    "    forward_func = get_forward_func_wrapper(label_index)\n",
    "    lig2 = LayerIntegratedGradientsRevisited(forward_func, model.identity, multiply_by_inputs=True, device_ids=[0])    \n",
    "    subset = data.Subset(dataset, [data_indice])\n",
    "    batch_loader = DataLoader(subset, batch_size=len(subset), shuffle=False)\n",
    "    batch = None\n",
    "    for _batch in batch_loader:\n",
    "        batch = _batch\n",
    "    batch = [b.to(device) for b in batch]\n",
    "    output = model(batch)[:, label_index]\n",
    "    input_ids, ref_input_ids = construct_input_ref_pair(subset[0][0].input_ids, subset[0][0].attention_mask)\n",
    "    input_ids = input_ids.to(device)\n",
    "    ref_input_ids = ref_input_ids.to(device)\n",
    "    sequence = tokenizer.convert_ids_to_tokens(input_ids[0])\n",
    "    attr_node_embeddings, grad_norm = lig2.attribute(inputs=input_ids, baselines=ref_input_ids, additional_forward_args=batch, n_steps=50)\n",
    "    grad_norm = grad_norm.norm(dim=1)\n",
    "    return attr_node_embeddings.cpu().numpy(), grad_norm.cpu().numpy(), output.detach().cpu().numpy(), sequence"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 18,
   "id": "92ad5848",
   "metadata": {},
   "outputs": [],
   "source": [
    "from sklearn import metrics\n",
    "\n",
    "def get_compiled_file(mf_term, protein_name, pred, binding_sites=None, folder='saliency_weights'):\n",
    "    protein_index = protein_name_indices[protein_name]\n",
    "    attrs, grad_norm, result, sequence = get_ig_attribution(mf_term, protein_index)\n",
    "    auroc_attr_ig, binding_sites_vector = None, None\n",
    "    if binding_sites is not None:\n",
    "        binding_sites_vector = np.zeros(len(attrs))\n",
    "        binding_sites_vector[binding_sites] = 1\n",
    "        auroc_attr_ig = metrics.roc_auc_score(binding_sites_vector, attrs)\n",
    "    sequence = ''.join(sequence[1:len(attrs) + 1])\n",
    "    result = {'name': protein_name, \n",
    "            'mf-term': mf_term, \n",
    "            'sequence': sequence,\n",
    "            'binding_sites': binding_sites_vector, \n",
    "            'attribution_integrated_gradient': attrs,\n",
    "            'pred': pred,\n",
    "            'auroc': float(auroc_attr_ig) if auroc_attr_ig is not None else None\n",
    "           }\n",
    "#     if binding_sites is not None:\n",
    "    import pickle\n",
    "    with open(os.path.join(folder, protein_name+'.pkl'), 'wb') as f:\n",
    "        pickle.dump(result, f)\n",
    "    return result\n"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 19,
   "id": "f3905a7e",
   "metadata": {},
   "outputs": [],
   "source": [
    "import numpy as np\n",
    "import pandas as pd\n",
    "\n",
    "mf_term = \"ATP binding\"\n",
    "results = get_umap_projection_and_cluster(mf_term)\n",
    "df = pd.DataFrame.from_dict(results)\n",
    "\n",
    "df.to_csv(os.path.join(\"./ATP_binding_Umap_and_Cluster.csv\"))"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 20,
   "id": "e5d74f8d",
   "metadata": {},
   "outputs": [],
   "source": [
    "import altair as alt\n",
    "\n",
    "points = alt.Chart(df).mark_point(\n",
    "    filled=True,\n",
    "    size=36,    \n",
    ").encode(\n",
    "    alt.X('umap_x:Q',\n",
    "        scale=alt.Scale(\n",
    "            domain=(0, 10.5),\n",
    "            clamp=True\n",
    "        )\n",
    "    ),\n",
    "    alt.Y('umap_y:Q',\n",
    "        scale=alt.Scale(\n",
    "            domain=(5, 14),\n",
    "            clamp=True\n",
    "        )\n",
    "    ),\n",
    "    shape = alt.Shape(\n",
    "       \"pred:N\",\n",
    "        scale = alt.Scale(range=[\"triangle\", \"circle\"],zero=True)),\n",
    "    color='cluster_id:N'\n",
    ").properties(\n",
    "    width=600,\n",
    "    height=600\n",
    ")"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 21,
   "id": "c847773a",
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/html": [
       "\n",
       "<div id=\"altair-viz-56d076f782da4ed4a93c049b6fdf96e0\"></div>\n",
       "<script type=\"text/javascript\">\n",
       "  (function(spec, embedOpt){\n",
       "    let outputDiv = document.currentScript.previousElementSibling;\n",
       "    if (outputDiv.id !== \"altair-viz-56d076f782da4ed4a93c049b6fdf96e0\") {\n",
       "      outputDiv = document.getElementById(\"altair-viz-56d076f782da4ed4a93c049b6fdf96e0\");\n",
       "    }\n",
       "    const paths = {\n",
       "      \"vega\": \"https://cdn.jsdelivr.net/npm//vega@5?noext\",\n",
       "      \"vega-lib\": \"https://cdn.jsdelivr.net/npm//vega-lib?noext\",\n",
       "      \"vega-lite\": \"https://cdn.jsdelivr.net/npm//vega-lite@4.8.1?noext\",\n",
       "      \"vega-embed\": \"https://cdn.jsdelivr.net/npm//vega-embed@6?noext\",\n",
       "    };\n",
       "\n",
       "    function loadScript(lib) {\n",
       "      return new Promise(function(resolve, reject) {\n",
       "        var s = document.createElement('script');\n",
       "        s.src = paths[lib];\n",
       "        s.async = true;\n",
       "        s.onload = () => resolve(paths[lib]);\n",
       "        s.onerror = () => reject(`Error loading script: ${paths[lib]}`);\n",
       "        document.getElementsByTagName(\"head\")[0].appendChild(s);\n",
       "      });\n",
       "    }\n",
       "\n",
       "    function showError(err) {\n",
       "      outputDiv.innerHTML = `<div class=\"error\" style=\"color:red;\">${err}</div>`;\n",
       "      throw err;\n",
       "    }\n",
       "\n",
       "    function displayChart(vegaEmbed) {\n",
       "      vegaEmbed(outputDiv, spec, embedOpt)\n",
       "        .catch(err => showError(`Javascript Error: ${err.message}<br>This usually means there's a typo in your chart specification. See the javascript console for the full traceback.`));\n",
       "    }\n",
       "\n",
       "    if(typeof define === \"function\" && define.amd) {\n",
       "      requirejs.config({paths});\n",
       "      require([\"vega-embed\"], displayChart, err => showError(`Error loading script: ${err.message}`));\n",
       "    } else if (typeof vegaEmbed === \"function\") {\n",
       "      displayChart(vegaEmbed);\n",
       "    } else {\n",
       "      loadScript(\"vega\")\n",
       "        .then(() => loadScript(\"vega-lite\"))\n",
       "        .then(() => loadScript(\"vega-embed\"))\n",
       "        .catch(showError)\n",
       "        .then(() => displayChart(vegaEmbed));\n",
       "    }\n",
       "  })({\"config\": {\"view\": {\"continuousWidth\": 400, \"continuousHeight\": 300}}, \"data\": {\"name\": \"data-07f8575899d72aa2adce08b7694c22d1\"}, \"mark\": {\"type\": \"point\", \"filled\": true, \"size\": 36}, \"encoding\": {\"color\": {\"type\": \"nominal\", \"field\": \"cluster_id\"}, \"shape\": {\"type\": \"nominal\", \"field\": \"pred\", \"scale\": {\"range\": [\"triangle\", \"circle\"], \"zero\": true}}, \"x\": {\"type\": \"quantitative\", \"field\": \"umap_x\", \"scale\": {\"clamp\": true, \"domain\": [0, 10.5]}}, \"y\": {\"type\": \"quantitative\", \"field\": \"umap_y\", \"scale\": {\"clamp\": true, \"domain\": [5, 14]}}}, \"height\": 600, \"selection\": {\"selector002\": {\"type\": \"interval\", \"bind\": \"scales\", \"encodings\": [\"x\", \"y\"]}}, \"width\": 600, \"$schema\": \"https://vega.github.io/schema/vega-lite/v4.8.1.json\", \"datasets\": {\"data-07f8575899d72aa2adce08b7694c22d1\": [{\"umap_x\": 4.667498588562012, \"umap_y\": 5.831794738769531, \"name\": \"3TE5-C\", \"cluster_id\": 0, \"pred\": \"False\", \"binding_data\": false}, {\"umap_x\": 1.6899293661117554, \"umap_y\": 1.1954991817474365, \"name\": \"5NBL-C\", \"cluster_id\": 1, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 3.157820224761963, \"umap_y\": 7.370898723602295, \"name\": \"4QS9-A\", \"cluster_id\": 2, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 5.856868743896484, \"umap_y\": 5.434272289276123, \"name\": \"2Q8F-A\", \"cluster_id\": 3, \"pred\": \"False\", \"binding_data\": false}, {\"umap_x\": 3.144040584564209, \"umap_y\": 4.581292152404785, \"name\": \"1E8C-A\", \"cluster_id\": 4, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 3.6714577674865723, \"umap_y\": 0.5895332098007202, \"name\": \"5C18-A\", \"cluster_id\": 5, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 9.857522964477539, \"umap_y\": 1.657765507698059, \"name\": \"4EWQ-A\", \"cluster_id\": 6, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 3.7607290744781494, \"umap_y\": 2.108024835586548, \"name\": \"5H1C-A\", \"cluster_id\": 5, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 9.91083812713623, \"umap_y\": 1.355363368988037, \"name\": \"2BPM-A\", \"cluster_id\": 6, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 8.017091751098633, \"umap_y\": 1.9429467916488647, \"name\": \"5AIR-A\", \"cluster_id\": 6, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 5.1132659912109375, \"umap_y\": 5.428473472595215, \"name\": \"4B56-A\", \"cluster_id\": 7, \"pred\": \"False\", \"binding_data\": false}, {\"umap_x\": 7.083812713623047, \"umap_y\": 2.388636350631714, \"name\": \"6NT9-A\", \"cluster_id\": 6, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 3.6808812618255615, \"umap_y\": 0.8566489219665527, \"name\": \"5VFP-F\", \"cluster_id\": 5, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 6.595903396606445, \"umap_y\": 5.537027835845947, \"name\": \"5HPT-C\", \"cluster_id\": 3, \"pred\": \"False\", \"binding_data\": false}, {\"umap_x\": 10.003433227539062, \"umap_y\": 1.6772191524505615, \"name\": \"4MYG-A\", \"cluster_id\": 6, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 1.524585485458374, \"umap_y\": 4.354208469390869, \"name\": \"1CT9-A\", \"cluster_id\": 4, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 4.408041954040527, \"umap_y\": 5.203290939331055, \"name\": \"5K98-A\", \"cluster_id\": 4, \"pred\": \"False\", \"binding_data\": false}, {\"umap_x\": 4.988766670227051, \"umap_y\": 3.0839192867279053, \"name\": \"5UJM-E\", \"cluster_id\": 5, \"pred\": \"False\", \"binding_data\": false}, {\"umap_x\": 5.609599590301514, \"umap_y\": 3.3987772464752197, \"name\": \"5DFZ-C\", \"cluster_id\": 5, \"pred\": \"False\", \"binding_data\": false}, {\"umap_x\": 2.0787031650543213, \"umap_y\": 4.448262691497803, \"name\": \"1WLE-A\", \"cluster_id\": 4, \"pred\": \"False\", \"binding_data\": false}, {\"umap_x\": 1.9164609909057617, \"umap_y\": 7.346405029296875, \"name\": \"1E2Q-A\", \"cluster_id\": 8, \"pred\": \"True\", \"binding_data\": true}, {\"umap_x\": 1.9365370273590088, \"umap_y\": 4.1106696128845215, \"name\": \"5MLK-A\", \"cluster_id\": 4, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 1.0162304639816284, \"umap_y\": 7.519275665283203, \"name\": \"1QPG-A\", \"cluster_id\": 8, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 6.606578350067139, \"umap_y\": 2.8665637969970703, \"name\": \"3AKJ-A\", \"cluster_id\": -1, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 8.545632362365723, \"umap_y\": 1.7619203329086304, \"name\": \"5U6Y-A\", \"cluster_id\": 6, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 7.9477620124816895, \"umap_y\": 1.9679588079452515, \"name\": \"3NYO-A\", \"cluster_id\": 6, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 2.485736131668091, \"umap_y\": 7.2872490882873535, \"name\": \"2ORV-A\", \"cluster_id\": 8, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 6.358335018157959, \"umap_y\": 5.44103479385376, \"name\": \"4WHV-B\", \"cluster_id\": 3, \"pred\": \"False\", \"binding_data\": false}, {\"umap_x\": 0.9771463871002197, \"umap_y\": 3.830350160598755, \"name\": \"5EKD-A\", \"cluster_id\": 4, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 5.9554314613342285, \"umap_y\": 5.564617156982422, \"name\": \"2MT6-A\", \"cluster_id\": 3, \"pred\": \"False\", \"binding_data\": false}, {\"umap_x\": 2.8714094161987305, \"umap_y\": 1.9562581777572632, \"name\": \"5FPN-A\", \"cluster_id\": 9, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 5.842891693115234, \"umap_y\": 3.224806070327759, \"name\": \"4OAU-C\", \"cluster_id\": 5, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 6.681031703948975, \"umap_y\": 5.514472961425781, \"name\": \"2C4P-A\", \"cluster_id\": 3, \"pred\": \"False\", \"binding_data\": false}, {\"umap_x\": 4.072483062744141, \"umap_y\": 4.199455738067627, \"name\": \"3PV0-A\", \"cluster_id\": 4, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 9.533376693725586, \"umap_y\": 1.328362226486206, \"name\": \"1G3N-A\", \"cluster_id\": 6, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 9.24103832244873, \"umap_y\": 1.016808271408081, \"name\": \"4FL3-A\", \"cluster_id\": 6, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 4.8909382820129395, \"umap_y\": 2.5693740844726562, \"name\": \"5V8F-9\", \"cluster_id\": 5, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 4.840543746948242, \"umap_y\": 2.193660259246826, \"name\": \"5V8F-A\", \"cluster_id\": 5, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 4.9769463539123535, \"umap_y\": 2.7125329971313477, \"name\": \"5V8F-E\", \"cluster_id\": 5, \"pred\": \"False\", \"binding_data\": false}, {\"umap_x\": 4.635013103485107, \"umap_y\": 3.375370979309082, \"name\": \"2NPI-A\", \"cluster_id\": 4, \"pred\": \"False\", \"binding_data\": true}, {\"umap_x\": 3.7657461166381836, \"umap_y\": 3.7041208744049072, \"name\": \"4ZIR-B\", \"cluster_id\": 4, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 3.251497983932495, \"umap_y\": 7.6735148429870605, \"name\": \"1IG8-A\", \"cluster_id\": 2, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 2.556992530822754, \"umap_y\": 5.4988579750061035, \"name\": \"5UGH-A\", \"cluster_id\": 4, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 5.480343341827393, \"umap_y\": 5.146357536315918, \"name\": \"6G2J-Z\", \"cluster_id\": 7, \"pred\": \"False\", \"binding_data\": false}, {\"umap_x\": 5.2605366706848145, \"umap_y\": 5.086517810821533, \"name\": \"4UXX-A\", \"cluster_id\": 7, \"pred\": \"False\", \"binding_data\": false}, {\"umap_x\": 3.0987460613250732, \"umap_y\": 7.071447849273682, \"name\": \"3AFO-A\", \"cluster_id\": 2, \"pred\": \"False\", \"binding_data\": false}, {\"umap_x\": 9.094033241271973, \"umap_y\": 1.084128975868225, \"name\": \"5KCV-A\", \"cluster_id\": 6, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 9.87065315246582, \"umap_y\": 1.7182515859603882, \"name\": \"1CM8-A\", \"cluster_id\": 6, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 4.834789752960205, \"umap_y\": 5.027329921722412, \"name\": \"2IF8-A\", \"cluster_id\": 4, \"pred\": \"False\", \"binding_data\": false}, {\"umap_x\": 4.649733066558838, \"umap_y\": 3.3632888793945312, \"name\": \"1JEY-A\", \"cluster_id\": 4, \"pred\": \"False\", \"binding_data\": false}, {\"umap_x\": 3.690328598022461, \"umap_y\": 1.1710034608840942, \"name\": \"6QI9-D\", \"cluster_id\": 5, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 8.714166641235352, \"umap_y\": 1.8876967430114746, \"name\": \"1UA2-A\", \"cluster_id\": 6, \"pred\": \"True\", \"binding_data\": true}, {\"umap_x\": 0.7075324654579163, \"umap_y\": 3.767307996749878, \"name\": \"2DLC-X\", \"cluster_id\": 4, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 3.9595751762390137, \"umap_y\": 6.042055130004883, \"name\": \"1X6V-B\", \"cluster_id\": 2, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 3.8101582527160645, \"umap_y\": 1.6630254983901978, \"name\": \"5U8S-7\", \"cluster_id\": 5, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 5.420241355895996, \"umap_y\": 3.1486010551452637, \"name\": \"2PZI-A\", \"cluster_id\": 5, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 3.878772735595703, \"umap_y\": 0.5487814545631409, \"name\": \"5XMK-A\", \"cluster_id\": 5, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 9.052420616149902, \"umap_y\": 1.8195449113845825, \"name\": \"4CZT-A\", \"cluster_id\": 6, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 1.5639616250991821, \"umap_y\": 4.025667667388916, \"name\": \"3LSS-A\", \"cluster_id\": 4, \"pred\": \"True\", \"binding_data\": true}, {\"umap_x\": 3.4089598655700684, \"umap_y\": 6.500596046447754, \"name\": \"3D4J-A\", \"cluster_id\": 2, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 1.181584358215332, \"umap_y\": 3.803863763809204, \"name\": \"6CHD-A\", \"cluster_id\": 4, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 7.43733024597168, \"umap_y\": 5.419920921325684, \"name\": \"1AYZ-A\", \"cluster_id\": 3, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 7.58795690536499, \"umap_y\": 2.221095085144043, \"name\": \"2LAV-A\", \"cluster_id\": 6, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 3.0233426094055176, \"umap_y\": 7.325486183166504, \"name\": \"3NCA-A\", \"cluster_id\": 2, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 3.6702120304107666, \"umap_y\": 5.871614933013916, \"name\": \"6AVH-A\", \"cluster_id\": 2, \"pred\": \"False\", \"binding_data\": false}, {\"umap_x\": 3.5559442043304443, \"umap_y\": 4.723522186279297, \"name\": \"1DI7-A\", \"cluster_id\": 4, \"pred\": \"False\", \"binding_data\": false}, {\"umap_x\": 3.5515623092651367, \"umap_y\": 2.4552218914031982, \"name\": \"2IW3-A\", \"cluster_id\": 10, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 3.2482569217681885, \"umap_y\": 4.7374114990234375, \"name\": \"2V4Y-A\", \"cluster_id\": 4, \"pred\": \"False\", \"binding_data\": false}, {\"umap_x\": 4.844918727874756, \"umap_y\": 2.20163631439209, \"name\": \"5VQ9-D\", \"cluster_id\": 5, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 2.388794183731079, \"umap_y\": 4.33466100692749, \"name\": \"3U9T-A\", \"cluster_id\": 4, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 2.848085880279541, \"umap_y\": 4.645767688751221, \"name\": \"5IE2-A\", \"cluster_id\": 4, \"pred\": \"False\", \"binding_data\": false}, {\"umap_x\": 3.2661263942718506, \"umap_y\": 4.526491165161133, \"name\": \"3N1C-A\", \"cluster_id\": 4, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 5.860663890838623, \"umap_y\": 3.3334109783172607, \"name\": \"5DXT-A\", \"cluster_id\": 5, \"pred\": \"False\", \"binding_data\": false}, {\"umap_x\": 1.354149341583252, \"umap_y\": 7.512740135192871, \"name\": \"4AKE-A\", \"cluster_id\": 8, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 2.434614658355713, \"umap_y\": 4.315261363983154, \"name\": \"4RQF-A\", \"cluster_id\": 4, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 2.814176321029663, \"umap_y\": 5.1890692710876465, \"name\": \"4L6W-A\", \"cluster_id\": 4, \"pred\": \"False\", \"binding_data\": false}, {\"umap_x\": 2.617927074432373, \"umap_y\": 5.504573345184326, \"name\": \"1XRB-A\", \"cluster_id\": 4, \"pred\": \"False\", \"binding_data\": false}, {\"umap_x\": 3.9745805263519287, \"umap_y\": 4.232241153717041, \"name\": \"1RNL-A\", \"cluster_id\": 4, \"pred\": \"False\", \"binding_data\": false}, {\"umap_x\": 4.879153251647949, \"umap_y\": 2.244486093521118, \"name\": \"3EZK-A\", \"cluster_id\": 5, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 2.534636974334717, \"umap_y\": 5.0836920738220215, \"name\": \"2A7S-A\", \"cluster_id\": 4, \"pred\": \"False\", \"binding_data\": false}, {\"umap_x\": 6.767365455627441, \"umap_y\": 5.183284759521484, \"name\": \"2GK9-A\", \"cluster_id\": 3, \"pred\": \"False\", \"binding_data\": false}, {\"umap_x\": 0.4089404046535492, \"umap_y\": 8.144689559936523, \"name\": \"4FKX-A\", \"cluster_id\": 11, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 3.2471697330474854, \"umap_y\": 7.611279010772705, \"name\": \"1BG3-A\", \"cluster_id\": 2, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 7.189048767089844, \"umap_y\": 2.3296585083007812, \"name\": \"4JLC-A\", \"cluster_id\": 6, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 2.0158305168151855, \"umap_y\": 7.141637325286865, \"name\": \"2BBW-A\", \"cluster_id\": 8, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 4.339563846588135, \"umap_y\": 3.126455783843994, \"name\": \"1XDP-A\", \"cluster_id\": 4, \"pred\": \"False\", \"binding_data\": true}, {\"umap_x\": 1.3968069553375244, \"umap_y\": 3.7650961875915527, \"name\": \"3JZF-A\", \"cluster_id\": 4, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 0.37576889991760254, \"umap_y\": 8.182558059692383, \"name\": \"1NSK-R\", \"cluster_id\": 11, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 1.437533974647522, \"umap_y\": 2.066787004470825, \"name\": \"5FWK-A\", \"cluster_id\": 1, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 1.3203315734863281, \"umap_y\": 3.8032050132751465, \"name\": \"2DER-A\", \"cluster_id\": 4, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 2.773961067199707, \"umap_y\": 4.929494857788086, \"name\": \"5U03-A\", \"cluster_id\": 4, \"pred\": \"False\", \"binding_data\": false}, {\"umap_x\": 3.8669605255126953, \"umap_y\": 4.593080043792725, \"name\": \"1NI5-A\", \"cluster_id\": 4, \"pred\": \"False\", \"binding_data\": false}, {\"umap_x\": 7.596414089202881, \"umap_y\": 2.300184488296509, \"name\": \"2RSV-A\", \"cluster_id\": 6, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 2.487541675567627, \"umap_y\": 4.415307521820068, \"name\": \"4C5A-A\", \"cluster_id\": 4, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 1.4391251802444458, \"umap_y\": 1.6823785305023193, \"name\": \"5UYZ-A\", \"cluster_id\": 1, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 0.869939386844635, \"umap_y\": 4.061975479125977, \"name\": \"1R6T-A\", \"cluster_id\": 4, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 3.2431044578552246, \"umap_y\": 6.775772571563721, \"name\": \"2R3V-A\", \"cluster_id\": 2, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 1.140783667564392, \"umap_y\": 4.4860124588012695, \"name\": \"3FKY-A\", \"cluster_id\": 4, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 1.5605818033218384, \"umap_y\": 4.86418342590332, \"name\": \"5D1Y-A\", \"cluster_id\": 4, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 6.083670616149902, \"umap_y\": 5.592803478240967, \"name\": \"4DDG-A\", \"cluster_id\": 3, \"pred\": \"False\", \"binding_data\": false}, {\"umap_x\": 4.4868879318237305, \"umap_y\": 0.42458009719848633, \"name\": \"2VSX-A\", \"cluster_id\": 12, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 8.441636085510254, \"umap_y\": 1.7062764167785645, \"name\": \"4CFF-A\", \"cluster_id\": 6, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 0.8661631941795349, \"umap_y\": 4.0374860763549805, \"name\": \"3A5Z-A\", \"cluster_id\": 4, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 3.3020665645599365, \"umap_y\": 1.9124751091003418, \"name\": \"5AKB-A\", \"cluster_id\": 5, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 0.34911707043647766, \"umap_y\": 8.204095840454102, \"name\": \"1NSQ-A\", \"cluster_id\": 11, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 1.0116645097732544, \"umap_y\": 3.630633592605591, \"name\": \"4R3Z-B\", \"cluster_id\": 4, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 1.3381428718566895, \"umap_y\": 4.1442365646362305, \"name\": \"4R3Z-C\", \"cluster_id\": 4, \"pred\": \"False\", \"binding_data\": false}, {\"umap_x\": 3.484297037124634, \"umap_y\": 0.8429664373397827, \"name\": \"1E94-E\", \"cluster_id\": 5, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 4.942335605621338, \"umap_y\": 2.3235697746276855, \"name\": \"5J1S-A\", \"cluster_id\": 5, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 7.018038272857666, \"umap_y\": 5.5689826011657715, \"name\": \"2YB6-A\", \"cluster_id\": 3, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 1.1605987548828125, \"umap_y\": 2.961620807647705, \"name\": \"1Y4U-A\", \"cluster_id\": 4, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 5.983500957489014, \"umap_y\": 5.588016986846924, \"name\": \"3CRK-A\", \"cluster_id\": 3, \"pred\": \"False\", \"binding_data\": false}, {\"umap_x\": 3.883296251296997, \"umap_y\": 5.962452411651611, \"name\": \"3LQ3-A\", \"cluster_id\": 2, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 1.737135887145996, \"umap_y\": 1.1575396060943604, \"name\": \"3MN5-A\", \"cluster_id\": 1, \"pred\": \"True\", \"binding_data\": true}, {\"umap_x\": 4.385395050048828, \"umap_y\": 3.6432223320007324, \"name\": \"5VOY-O\", \"cluster_id\": 4, \"pred\": \"False\", \"binding_data\": false}, {\"umap_x\": 3.4565305709838867, \"umap_y\": 7.382876873016357, \"name\": \"2I6B-A\", \"cluster_id\": 2, \"pred\": \"False\", \"binding_data\": false}, {\"umap_x\": 3.831977367401123, \"umap_y\": 1.3848992586135864, \"name\": \"1V5W-A\", \"cluster_id\": 5, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 1.4592883586883545, \"umap_y\": 3.8806657791137695, \"name\": \"4AH6-A\", \"cluster_id\": 4, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 7.403499126434326, \"umap_y\": 2.3517754077911377, \"name\": \"4WWA-A\", \"cluster_id\": 6, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 3.6030304431915283, \"umap_y\": 2.8177247047424316, \"name\": \"5LL6-h\", \"cluster_id\": 10, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 3.262665271759033, \"umap_y\": 6.915837287902832, \"name\": \"2CH6-A\", \"cluster_id\": 2, \"pred\": \"False\", \"binding_data\": false}, {\"umap_x\": 3.159181833267212, \"umap_y\": 4.736068248748779, \"name\": \"1GG4-A\", \"cluster_id\": 4, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 3.3258934020996094, \"umap_y\": 7.516160011291504, \"name\": \"4DCH-A\", \"cluster_id\": 2, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 5.8366241455078125, \"umap_y\": 5.465702056884766, \"name\": \"4DZY-A\", \"cluster_id\": 3, \"pred\": \"False\", \"binding_data\": false}, {\"umap_x\": 2.7779219150543213, \"umap_y\": 3.6317484378814697, \"name\": \"4UAQ-A\", \"cluster_id\": 13, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 8.90799331665039, \"umap_y\": 1.4744951725006104, \"name\": \"1NY3-A\", \"cluster_id\": 6, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 0.904197633266449, \"umap_y\": 4.115731239318848, \"name\": \"3ZXV-A\", \"cluster_id\": 4, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 1.020903468132019, \"umap_y\": 3.049488067626953, \"name\": \"2IOQ-A\", \"cluster_id\": 4, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 7.924675464630127, \"umap_y\": 1.9011170864105225, \"name\": \"5TOS-A\", \"cluster_id\": 6, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 2.521873712539673, \"umap_y\": 5.499374866485596, \"name\": \"1O92-A\", \"cluster_id\": 4, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 3.7807416915893555, \"umap_y\": 1.3262817859649658, \"name\": \"1R6B-X\", \"cluster_id\": 5, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 3.3541860580444336, \"umap_y\": 6.666266441345215, \"name\": \"2YHX-A\", \"cluster_id\": 2, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 4.402636528015137, \"umap_y\": 4.406548023223877, \"name\": \"2NVU-B\", \"cluster_id\": 4, \"pred\": \"False\", \"binding_data\": true}, {\"umap_x\": 7.203497886657715, \"umap_y\": 5.484922885894775, \"name\": \"2NVU-C\", \"cluster_id\": 3, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 0.979543924331665, \"umap_y\": 7.524573802947998, \"name\": \"3ZLB-A\", \"cluster_id\": 8, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 5.859630584716797, \"umap_y\": 4.806581020355225, \"name\": \"6C3O-A\", \"cluster_id\": 14, \"pred\": \"False\", \"binding_data\": false}, {\"umap_x\": 3.4234960079193115, \"umap_y\": 6.527839183807373, \"name\": \"4BC2-A\", \"cluster_id\": 2, \"pred\": \"False\", \"binding_data\": false}, {\"umap_x\": 3.169066905975342, \"umap_y\": 4.947446823120117, \"name\": \"5X2L-A\", \"cluster_id\": 4, \"pred\": \"False\", \"binding_data\": false}, {\"umap_x\": 6.025718688964844, \"umap_y\": 5.520607948303223, \"name\": \"1YCN-A\", \"cluster_id\": 3, \"pred\": \"False\", \"binding_data\": false}, {\"umap_x\": 1.1496102809906006, \"umap_y\": 3.904834508895874, \"name\": \"4YYE-A\", \"cluster_id\": 4, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 3.741196393966675, \"umap_y\": 0.7272866368293762, \"name\": \"5WVI-K\", \"cluster_id\": 5, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 3.6484153270721436, \"umap_y\": 0.7278231382369995, \"name\": \"5WVI-L\", \"cluster_id\": 5, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 3.703742027282715, \"umap_y\": 1.7327123880386353, \"name\": \"5XF8-3\", \"cluster_id\": 5, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 4.610253810882568, \"umap_y\": 3.2980949878692627, \"name\": \"5Y58-A\", \"cluster_id\": 4, \"pred\": \"False\", \"binding_data\": false}, {\"umap_x\": 4.607146739959717, \"umap_y\": 3.38122296333313, \"name\": \"5Y58-B\", \"cluster_id\": 4, \"pred\": \"False\", \"binding_data\": false}, {\"umap_x\": 5.925967693328857, \"umap_y\": 4.833080768585205, \"name\": \"5SVM-A\", \"cluster_id\": 14, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 10.131653785705566, \"umap_y\": 1.4911476373672485, \"name\": \"4QTB-A\", \"cluster_id\": 6, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 0.7584227323532104, \"umap_y\": 3.807227849960327, \"name\": \"1LI5-A\", \"cluster_id\": 4, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 5.083012580871582, \"umap_y\": 2.943458080291748, \"name\": \"5UJ7-C\", \"cluster_id\": 5, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 1.0775057077407837, \"umap_y\": 7.6296586990356445, \"name\": \"5NP8-A\", \"cluster_id\": 8, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 2.5648467540740967, \"umap_y\": 5.28914737701416, \"name\": \"4N0I-A\", \"cluster_id\": 4, \"pred\": \"False\", \"binding_data\": false}, {\"umap_x\": 2.971104383468628, \"umap_y\": 5.6546196937561035, \"name\": \"1T5A-A\", \"cluster_id\": 4, \"pred\": \"False\", \"binding_data\": false}, {\"umap_x\": 1.5082135200500488, \"umap_y\": 7.595971584320068, \"name\": \"2AKY-A\", \"cluster_id\": 8, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 1.4012954235076904, \"umap_y\": 1.6317765712738037, \"name\": \"5GW4-d\", \"cluster_id\": 1, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 1.3727443218231201, \"umap_y\": 1.5895391702651978, \"name\": \"5GW4-h\", \"cluster_id\": 1, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 5.979080677032471, \"umap_y\": 4.856749057769775, \"name\": \"3WGV-B\", \"cluster_id\": 14, \"pred\": \"False\", \"binding_data\": false}, {\"umap_x\": 1.3553428649902344, \"umap_y\": 1.5718352794647217, \"name\": \"4V94-A\", \"cluster_id\": 1, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 3.7423946857452393, \"umap_y\": 0.8060966730117798, \"name\": \"5GJQ-J\", \"cluster_id\": 5, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 1.701356053352356, \"umap_y\": 1.1813451051712036, \"name\": \"4PL7-A\", \"cluster_id\": 1, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 6.641596794128418, \"umap_y\": 5.422010898590088, \"name\": \"3BZH-A\", \"cluster_id\": 3, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 2.240950107574463, \"umap_y\": 7.313301086425781, \"name\": \"4Q1A-A\", \"cluster_id\": 8, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 3.6751489639282227, \"umap_y\": 3.612173557281494, \"name\": \"3R9I-A\", \"cluster_id\": 4, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 6.297037124633789, \"umap_y\": 5.192699909210205, \"name\": \"3ONG-B\", \"cluster_id\": 3, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 0.3811298906803131, \"umap_y\": 8.174760818481445, \"name\": \"5UI4-A\", \"cluster_id\": 11, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 2.6008613109588623, \"umap_y\": 2.217559576034546, \"name\": \"2QXL-A\", \"cluster_id\": 9, \"pred\": \"True\", \"binding_data\": true}, {\"umap_x\": 3.323392152786255, \"umap_y\": 6.506955623626709, \"name\": \"3RM5-A\", \"cluster_id\": 2, \"pred\": \"False\", \"binding_data\": false}, {\"umap_x\": 4.244494438171387, \"umap_y\": 3.7022600173950195, \"name\": \"2QPT-A\", \"cluster_id\": 4, \"pred\": \"False\", \"binding_data\": false}, {\"umap_x\": 4.267997741699219, \"umap_y\": 3.1774134635925293, \"name\": \"5LD2-D\", \"cluster_id\": 4, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 3.8927414417266846, \"umap_y\": 5.349675178527832, \"name\": \"1GZU-A\", \"cluster_id\": 4, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 2.1856958866119385, \"umap_y\": 5.007406234741211, \"name\": \"4TVY-A\", \"cluster_id\": 4, \"pred\": \"False\", \"binding_data\": false}, {\"umap_x\": 1.7803229093551636, \"umap_y\": 7.448519706726074, \"name\": \"2C9Y-A\", \"cluster_id\": 8, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 4.340268135070801, \"umap_y\": 4.096388339996338, \"name\": \"5NIK-J\", \"cluster_id\": 4, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 4.132960319519043, \"umap_y\": 5.294407367706299, \"name\": \"4X4W-A\", \"cluster_id\": 4, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 4.189720630645752, \"umap_y\": 2.0035974979400635, \"name\": \"5I8Q-A\", \"cluster_id\": 5, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 2.8136324882507324, \"umap_y\": 5.560145378112793, \"name\": \"2J5V-A\", \"cluster_id\": 4, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 3.854032516479492, \"umap_y\": 1.7406973838806152, \"name\": \"3JC7-2\", \"cluster_id\": 5, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 3.190117597579956, \"umap_y\": 5.407065391540527, \"name\": \"3U0O-A\", \"cluster_id\": 4, \"pred\": \"False\", \"binding_data\": false}, {\"umap_x\": 3.868483304977417, \"umap_y\": 3.7803080081939697, \"name\": \"2YZ2-A\", \"cluster_id\": 4, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 3.9674315452575684, \"umap_y\": 4.892683029174805, \"name\": \"3HXT-A\", \"cluster_id\": 4, \"pred\": \"False\", \"binding_data\": false}, {\"umap_x\": 1.827284336090088, \"umap_y\": 7.313084602355957, \"name\": \"1ZD8-A\", \"cluster_id\": 8, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 4.58859395980835, \"umap_y\": 0.5001009702682495, \"name\": \"5SVA-Z\", \"cluster_id\": 12, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 1.572564721107483, \"umap_y\": 4.027559280395508, \"name\": \"2VXO-A\", \"cluster_id\": 4, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 2.8599772453308105, \"umap_y\": 2.032078981399536, \"name\": \"2OHF-A\", \"cluster_id\": 9, \"pred\": \"False\", \"binding_data\": false}, {\"umap_x\": 2.8843400478363037, \"umap_y\": 2.0729498863220215, \"name\": \"5EE0-A\", \"cluster_id\": 9, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 3.8101463317871094, \"umap_y\": 0.7220371961593628, \"name\": \"3JCO-J\", \"cluster_id\": 5, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 4.680682182312012, \"umap_y\": 5.869349002838135, \"name\": \"6B2E-C\", \"cluster_id\": 0, \"pred\": \"False\", \"binding_data\": false}, {\"umap_x\": 3.8388049602508545, \"umap_y\": 4.802192211151123, \"name\": \"1YOV-B\", \"cluster_id\": 4, \"pred\": \"False\", \"binding_data\": false}, {\"umap_x\": 0.3914700448513031, \"umap_y\": 8.166816711425781, \"name\": \"2BEF-A\", \"cluster_id\": 11, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 3.940629720687866, \"umap_y\": 6.391066074371338, \"name\": \"1K6M-A\", \"cluster_id\": 2, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 8.668455123901367, \"umap_y\": 1.902311086654663, \"name\": \"4LFI-A\", \"cluster_id\": 6, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 2.4919331073760986, \"umap_y\": 2.2134501934051514, \"name\": \"4PJ1-A\", \"cluster_id\": 9, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 2.763002872467041, \"umap_y\": 2.4685592651367188, \"name\": \"4PJ1-O\", \"cluster_id\": 9, \"pred\": \"False\", \"binding_data\": false}, {\"umap_x\": 4.703956604003906, \"umap_y\": 3.9513142108917236, \"name\": \"5DO7-A\", \"cluster_id\": 4, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 4.835672855377197, \"umap_y\": 3.972334146499634, \"name\": \"5DO7-B\", \"cluster_id\": 4, \"pred\": \"False\", \"binding_data\": false}, {\"umap_x\": 0.800800621509552, \"umap_y\": 3.3619649410247803, \"name\": \"1ATI-A\", \"cluster_id\": 4, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 4.319515705108643, \"umap_y\": 1.9107370376586914, \"name\": \"5GM6-Y\", \"cluster_id\": 5, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 2.3180222511291504, \"umap_y\": 4.5237040519714355, \"name\": \"6AT4-A\", \"cluster_id\": 4, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 3.5516459941864014, \"umap_y\": 7.209705352783203, \"name\": \"4XYJ-A\", \"cluster_id\": 2, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 7.25511360168457, \"umap_y\": 2.2468090057373047, \"name\": \"6O8B-A\", \"cluster_id\": 6, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 4.924175262451172, \"umap_y\": 2.4665074348449707, \"name\": \"5OQJ-0\", \"cluster_id\": 5, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 4.624439239501953, \"umap_y\": 0.42563238739967346, \"name\": \"5OQJ-7\", \"cluster_id\": 12, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 3.869872808456421, \"umap_y\": 0.8025271892547607, \"name\": \"5WC0-A\", \"cluster_id\": 5, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 2.384674549102783, \"umap_y\": 7.159752368927002, \"name\": \"5JZV-A\", \"cluster_id\": 8, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 8.200151443481445, \"umap_y\": 2.0748369693756104, \"name\": \"6HMD-A\", \"cluster_id\": 6, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 3.2671871185302734, \"umap_y\": 2.8130929470062256, \"name\": \"1BDX-A\", \"cluster_id\": 10, \"pred\": \"False\", \"binding_data\": false}, {\"umap_x\": 10.123797416687012, \"umap_y\": 1.4654802083969116, \"name\": \"5NGU-A\", \"cluster_id\": 6, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 1.1373244524002075, \"umap_y\": 3.94977068901062, \"name\": \"4H3S-A\", \"cluster_id\": 4, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 8.533698081970215, \"umap_y\": 1.6748998165130615, \"name\": \"4REW-A\", \"cluster_id\": 6, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 9.95030403137207, \"umap_y\": 1.4517991542816162, \"name\": \"4AU8-A\", \"cluster_id\": 6, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 4.835132598876953, \"umap_y\": 5.120213031768799, \"name\": \"4FRF-A\", \"cluster_id\": 4, \"pred\": \"False\", \"binding_data\": false}, {\"umap_x\": 3.5697216987609863, \"umap_y\": 1.4453681707382202, \"name\": \"2IS4-A\", \"cluster_id\": 5, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 4.409862995147705, \"umap_y\": 0.6103838086128235, \"name\": \"3JCR-F\", \"cluster_id\": 12, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 3.152470827102661, \"umap_y\": 6.396798133850098, \"name\": \"1WUU-A\", \"cluster_id\": 2, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 6.42422342300415, \"umap_y\": 5.447343349456787, \"name\": \"3E46-A\", \"cluster_id\": 3, \"pred\": \"False\", \"binding_data\": false}, {\"umap_x\": 4.571570873260498, \"umap_y\": 5.0992960929870605, \"name\": \"2O1P-A\", \"cluster_id\": 4, \"pred\": \"False\", \"binding_data\": false}, {\"umap_x\": 2.9820618629455566, \"umap_y\": 7.2801337242126465, \"name\": \"2HW1-A\", \"cluster_id\": 2, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 4.555266380310059, \"umap_y\": 0.48681679368019104, \"name\": \"3EIQ-A\", \"cluster_id\": 12, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 1.2853349447250366, \"umap_y\": 4.5079874992370605, \"name\": \"2OJW-A\", \"cluster_id\": 4, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 6.978572845458984, \"umap_y\": 5.261327743530273, \"name\": \"3X07-A\", \"cluster_id\": 3, \"pred\": \"False\", \"binding_data\": false}, {\"umap_x\": 3.3478341102600098, \"umap_y\": 7.550682544708252, \"name\": \"4FOI-A\", \"cluster_id\": 2, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 5.857489109039307, \"umap_y\": 4.800353527069092, \"name\": \"5WUA-A\", \"cluster_id\": 14, \"pred\": \"False\", \"binding_data\": false}, {\"umap_x\": 3.3441030979156494, \"umap_y\": 5.552910327911377, \"name\": \"2H08-A\", \"cluster_id\": 4, \"pred\": \"False\", \"binding_data\": false}, {\"umap_x\": 9.405964851379395, \"umap_y\": 1.6309980154037476, \"name\": \"4D28-A\", \"cluster_id\": 6, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 2.3549983501434326, \"umap_y\": 3.8547236919403076, \"name\": \"3EPJ-A\", \"cluster_id\": 4, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 5.268746376037598, \"umap_y\": 5.409113883972168, \"name\": \"4L02-A\", \"cluster_id\": 7, \"pred\": \"False\", \"binding_data\": false}, {\"umap_x\": 3.394554376602173, \"umap_y\": 6.142480850219727, \"name\": \"2PYW-A\", \"cluster_id\": 2, \"pred\": \"False\", \"binding_data\": false}, {\"umap_x\": 7.298954010009766, \"umap_y\": 5.450124263763428, \"name\": \"3RCZ-B\", \"cluster_id\": 3, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 3.2743070125579834, \"umap_y\": 7.651949405670166, \"name\": \"1PFK-A\", \"cluster_id\": 2, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 2.113858222961426, \"umap_y\": 7.324418067932129, \"name\": \"3CH4-B\", \"cluster_id\": 8, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 0.9084319472312927, \"umap_y\": 3.7364132404327393, \"name\": \"1LYL-A\", \"cluster_id\": 4, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 1.6178443431854248, \"umap_y\": 1.3068819046020508, \"name\": \"1C0F-A\", \"cluster_id\": 1, \"pred\": \"True\", \"binding_data\": true}, {\"umap_x\": 1.9374644756317139, \"umap_y\": 7.162160396575928, \"name\": \"2FEM-A\", \"cluster_id\": 8, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 8.916866302490234, \"umap_y\": 1.5190380811691284, \"name\": \"6DTL-A\", \"cluster_id\": 6, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 3.795773506164551, \"umap_y\": 4.530923843383789, \"name\": \"2F9Y-B\", \"cluster_id\": 4, \"pred\": \"False\", \"binding_data\": false}, {\"umap_x\": 10.192567825317383, \"umap_y\": 1.4284805059432983, \"name\": \"5AWM-A\", \"cluster_id\": 6, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 4.333505630493164, \"umap_y\": 4.761198043823242, \"name\": \"3KYC-B\", \"cluster_id\": 4, \"pred\": \"False\", \"binding_data\": false}, {\"umap_x\": 9.25920295715332, \"umap_y\": 1.1734263896942139, \"name\": \"2H8H-A\", \"cluster_id\": 6, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 0.8812018036842346, \"umap_y\": 3.635960102081299, \"name\": \"2RD2-A\", \"cluster_id\": 4, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 3.975025177001953, \"umap_y\": 5.566314220428467, \"name\": \"5Z9R-A\", \"cluster_id\": 4, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 5.421310901641846, \"umap_y\": 5.10168981552124, \"name\": \"5XTI-W\", \"cluster_id\": 7, \"pred\": \"False\", \"binding_data\": false}, {\"umap_x\": 2.9330263137817383, \"umap_y\": 7.224913597106934, \"name\": \"2F7K-A\", \"cluster_id\": 2, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 9.115497589111328, \"umap_y\": 1.0724438428878784, \"name\": \"3PFQ-A\", \"cluster_id\": 6, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 1.0171278715133667, \"umap_y\": 3.6566905975341797, \"name\": \"4ARC-A\", \"cluster_id\": 4, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 9.2467622756958, \"umap_y\": 1.0706559419631958, \"name\": \"2OZO-A\", \"cluster_id\": 6, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 3.3098089694976807, \"umap_y\": 6.708260536193848, \"name\": \"2R42-A\", \"cluster_id\": 2, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 2.6880805492401123, \"umap_y\": 5.418028831481934, \"name\": \"1E0T-A\", \"cluster_id\": 4, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 9.761615753173828, \"umap_y\": 1.4996036291122437, \"name\": \"3MIA-A\", \"cluster_id\": 6, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 0.9373957514762878, \"umap_y\": 4.108816623687744, \"name\": \"3L4G-A\", \"cluster_id\": 4, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 1.8951395750045776, \"umap_y\": 5.045735836029053, \"name\": \"3L4G-B\", \"cluster_id\": 4, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 1.7177773714065552, \"umap_y\": 4.932692050933838, \"name\": \"5R1R-A\", \"cluster_id\": 4, \"pred\": \"False\", \"binding_data\": false}, {\"umap_x\": 1.5373140573501587, \"umap_y\": 7.5481648445129395, \"name\": \"1UKY-A\", \"cluster_id\": 8, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 1.9803500175476074, \"umap_y\": 4.231471538543701, \"name\": \"1GLV-A\", \"cluster_id\": 4, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 6.5648016929626465, \"umap_y\": 5.621930122375488, \"name\": \"5KHR-Q\", \"cluster_id\": 3, \"pred\": \"False\", \"binding_data\": false}, {\"umap_x\": 4.657971382141113, \"umap_y\": 1.731304407119751, \"name\": \"1SXJ-B\", \"cluster_id\": 5, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 4.52668571472168, \"umap_y\": 1.7172030210494995, \"name\": \"1SXJ-C\", \"cluster_id\": 5, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 4.56213903427124, \"umap_y\": 1.5814372301101685, \"name\": \"1SXJ-D\", \"cluster_id\": 5, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 4.762910842895508, \"umap_y\": 1.8903337717056274, \"name\": \"1SXJ-E\", \"cluster_id\": 5, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 6.228719711303711, \"umap_y\": 5.21256160736084, \"name\": \"2CYX-A\", \"cluster_id\": 3, \"pred\": \"False\", \"binding_data\": false}, {\"umap_x\": 4.465714931488037, \"umap_y\": 3.04862117767334, \"name\": \"3JC6-4\", \"cluster_id\": 4, \"pred\": \"False\", \"binding_data\": false}, {\"umap_x\": 2.703928232192993, \"umap_y\": 2.1839780807495117, \"name\": \"5E84-A\", \"cluster_id\": 9, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 8.468134880065918, \"umap_y\": 1.815388798713684, \"name\": \"3SOA-A\", \"cluster_id\": 6, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 7.123022079467773, \"umap_y\": 2.5428683757781982, \"name\": \"6FAI-l\", \"cluster_id\": 6, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 8.646408081054688, \"umap_y\": 1.6668825149536133, \"name\": \"3ZUT-A\", \"cluster_id\": 6, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 2.0358874797821045, \"umap_y\": 5.072201728820801, \"name\": \"11AS-A\", \"cluster_id\": 4, \"pred\": \"False\", \"binding_data\": false}, {\"umap_x\": 3.8379364013671875, \"umap_y\": 1.777956485748291, \"name\": \"5BK4-5\", \"cluster_id\": 5, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 3.301740884780884, \"umap_y\": 2.7280492782592773, \"name\": \"1PIL-A\", \"cluster_id\": 10, \"pred\": \"False\", \"binding_data\": false}, {\"umap_x\": 6.9562530517578125, \"umap_y\": 5.454427719116211, \"name\": \"1QCQ-A\", \"cluster_id\": 3, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 9.859400749206543, \"umap_y\": 1.8203665018081665, \"name\": \"3GC9-A\", \"cluster_id\": 6, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 9.271722793579102, \"umap_y\": 1.0855153799057007, \"name\": \"1K9A-A\", \"cluster_id\": 6, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 3.9142684936523438, \"umap_y\": 3.867697238922119, \"name\": \"3TUJ-C\", \"cluster_id\": 4, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 2.0710837841033936, \"umap_y\": 7.353588581085205, \"name\": \"2A30-A\", \"cluster_id\": 8, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 3.2846245765686035, \"umap_y\": 1.6978036165237427, \"name\": \"1ZVU-A\", \"cluster_id\": 5, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 6.341002941131592, \"umap_y\": 5.403290748596191, \"name\": \"4W5V-A\", \"cluster_id\": 3, \"pred\": \"False\", \"binding_data\": false}, {\"umap_x\": 2.926584005355835, \"umap_y\": 5.43467903137207, \"name\": \"5GRH-B\", \"cluster_id\": 4, \"pred\": \"False\", \"binding_data\": false}, {\"umap_x\": 3.473252058029175, \"umap_y\": 2.959956169128418, \"name\": \"5ZZM-A\", \"cluster_id\": 10, \"pred\": \"False\", \"binding_data\": false}, {\"umap_x\": 3.9650766849517822, \"umap_y\": 4.112301826477051, \"name\": \"4DBL-C\", \"cluster_id\": 4, \"pred\": \"False\", \"binding_data\": false}, {\"umap_x\": 0.9664161801338196, \"umap_y\": 7.493000507354736, \"name\": \"1FW8-A\", \"cluster_id\": 8, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 1.476965308189392, \"umap_y\": 7.589416980743408, \"name\": \"1Z83-A\", \"cluster_id\": 8, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 2.7907512187957764, \"umap_y\": 3.247018814086914, \"name\": \"3OFN-A\", \"cluster_id\": 13, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 4.491177082061768, \"umap_y\": 5.028955936431885, \"name\": \"4LIM-A\", \"cluster_id\": 4, \"pred\": \"False\", \"binding_data\": false}, {\"umap_x\": 9.574936866760254, \"umap_y\": 1.4082915782928467, \"name\": \"5X3F-B\", \"cluster_id\": 6, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 3.312706470489502, \"umap_y\": 7.617035388946533, \"name\": \"3B8A-X\", \"cluster_id\": 2, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 7.405742645263672, \"umap_y\": 2.5197360515594482, \"name\": \"4DA5-A\", \"cluster_id\": 6, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 6.472220420837402, \"umap_y\": 5.383373737335205, \"name\": \"1X23-A\", \"cluster_id\": 3, \"pred\": \"False\", \"binding_data\": false}, {\"umap_x\": 2.775474786758423, \"umap_y\": 4.45774507522583, \"name\": \"3RG2-A\", \"cluster_id\": 4, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 0.332194060087204, \"umap_y\": 8.218162536621094, \"name\": \"3B54-A\", \"cluster_id\": 11, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 4.081026554107666, \"umap_y\": 6.118806838989258, \"name\": \"1QK1-A\", \"cluster_id\": 2, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 1.9534990787506104, \"umap_y\": 5.037174701690674, \"name\": \"1VA6-A\", \"cluster_id\": 4, \"pred\": \"False\", \"binding_data\": false}, {\"umap_x\": 1.6412389278411865, \"umap_y\": 4.818166732788086, \"name\": \"2ZLF-A\", \"cluster_id\": 4, \"pred\": \"False\", \"binding_data\": false}, {\"umap_x\": 8.734810829162598, \"umap_y\": 1.6530274152755737, \"name\": \"3UC3-A\", \"cluster_id\": 6, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 2.8632984161376953, \"umap_y\": 2.5296082496643066, \"name\": \"1SVT-O\", \"cluster_id\": 9, \"pred\": \"False\", \"binding_data\": false}, {\"umap_x\": 1.6612186431884766, \"umap_y\": 7.522487163543701, \"name\": \"2TMK-A\", \"cluster_id\": 8, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 4.609365463256836, \"umap_y\": 0.48175424337387085, \"name\": \"5SUQ-A\", \"cluster_id\": 12, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 3.9930179119110107, \"umap_y\": 6.204920768737793, \"name\": \"1QH4-A\", \"cluster_id\": 2, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 3.4113810062408447, \"umap_y\": 5.267755031585693, \"name\": \"4S2U-A\", \"cluster_id\": 4, \"pred\": \"False\", \"binding_data\": false}, {\"umap_x\": 2.597971200942993, \"umap_y\": 4.774146556854248, \"name\": \"1RY2-A\", \"cluster_id\": 4, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 6.447213649749756, \"umap_y\": 5.474067211151123, \"name\": \"4R8P-L\", \"cluster_id\": 3, \"pred\": \"False\", \"binding_data\": false}, {\"umap_x\": 2.242403745651245, \"umap_y\": 4.22543478012085, \"name\": \"2H31-A\", \"cluster_id\": 4, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 4.0636186599731445, \"umap_y\": 5.015868663787842, \"name\": \"6O81-C\", \"cluster_id\": 4, \"pred\": \"False\", \"binding_data\": false}, {\"umap_x\": 1.0616861581802368, \"umap_y\": 3.514580726623535, \"name\": \"1QF6-A\", \"cluster_id\": 4, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 5.150152683258057, \"umap_y\": 2.5117242336273193, \"name\": \"5IY7-W\", \"cluster_id\": 5, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 2.9393343925476074, \"umap_y\": 3.121713638305664, \"name\": \"1NL3-A\", \"cluster_id\": 13, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 1.3501437902450562, \"umap_y\": 1.6285587549209595, \"name\": \"4V8R-AB\", \"cluster_id\": 1, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 1.4005595445632935, \"umap_y\": 1.5860013961791992, \"name\": \"4V8R-AE\", \"cluster_id\": 1, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 3.6160836219787598, \"umap_y\": 0.936675488948822, \"name\": \"6EF3-H\", \"cluster_id\": 5, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 3.5915889739990234, \"umap_y\": 1.3460628986358643, \"name\": \"3LDA-A\", \"cluster_id\": 5, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 10.126280784606934, \"umap_y\": 1.357203722000122, \"name\": \"4KRC-A\", \"cluster_id\": 6, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 7.403337478637695, \"umap_y\": 5.35626745223999, \"name\": \"2UCZ-A\", \"cluster_id\": 3, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 4.118847846984863, \"umap_y\": 1.0299161672592163, \"name\": \"5ZWN-y\", \"cluster_id\": 5, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 6.38640832901001, \"umap_y\": 5.51495361328125, \"name\": \"2IQX-A\", \"cluster_id\": 3, \"pred\": \"False\", \"binding_data\": false}, {\"umap_x\": 3.1303677558898926, \"umap_y\": 5.5458526611328125, \"name\": \"1L1F-A\", \"cluster_id\": 4, \"pred\": \"False\", \"binding_data\": false}, {\"umap_x\": 3.1807985305786133, \"umap_y\": 7.741220951080322, \"name\": \"5KPT-A\", \"cluster_id\": 2, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 4.004496097564697, \"umap_y\": 2.080688238143921, \"name\": \"6ID1-V\", \"cluster_id\": 5, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 2.8273723125457764, \"umap_y\": 3.190260171890259, \"name\": \"2XOK-D\", \"cluster_id\": 13, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 3.0439534187316895, \"umap_y\": 7.389332294464111, \"name\": \"5ZQT-A\", \"cluster_id\": 2, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 0.9868346452713013, \"umap_y\": 7.599888324737549, \"name\": \"2PAA-A\", \"cluster_id\": 8, \"pred\": \"True\", \"binding_data\": true}, {\"umap_x\": 0.8470283150672913, \"umap_y\": 3.5769996643066406, \"name\": \"4J15-A\", \"cluster_id\": 4, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 7.358564853668213, \"umap_y\": 5.415303707122803, \"name\": \"2Y9P-A\", \"cluster_id\": 3, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 4.004098892211914, \"umap_y\": 6.215683937072754, \"name\": \"4Z9M-A\", \"cluster_id\": 2, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 3.9973905086517334, \"umap_y\": 4.9324564933776855, \"name\": \"5A5Y-A\", \"cluster_id\": 4, \"pred\": \"False\", \"binding_data\": false}, {\"umap_x\": 2.8809969425201416, \"umap_y\": 2.9671576023101807, \"name\": \"2FSI-A\", \"cluster_id\": 13, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 3.6561975479125977, \"umap_y\": 0.9807100892066956, \"name\": \"2KIN-A\", \"cluster_id\": 5, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 10.063344955444336, \"umap_y\": 1.5208269357681274, \"name\": \"1JNK-A\", \"cluster_id\": 6, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 3.62945556640625, \"umap_y\": 2.8709700107574463, \"name\": \"3ICE-A\", \"cluster_id\": 10, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 2.8972301483154297, \"umap_y\": 5.670982360839844, \"name\": \"4IP7-A\", \"cluster_id\": 4, \"pred\": \"False\", \"binding_data\": false}, {\"umap_x\": 3.6049184799194336, \"umap_y\": 6.1023268699646, \"name\": \"2HGS-A\", \"cluster_id\": 2, \"pred\": \"False\", \"binding_data\": false}, {\"umap_x\": 7.0337677001953125, \"umap_y\": 5.471134185791016, \"name\": \"5NGZ-A\", \"cluster_id\": 3, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 0.9597746133804321, \"umap_y\": 3.6486570835113525, \"name\": \"2PME-A\", \"cluster_id\": 4, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 9.759753227233887, \"umap_y\": 1.4459444284439087, \"name\": \"4WB7-A\", \"cluster_id\": 6, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 4.979818344116211, \"umap_y\": 3.9878592491149902, \"name\": \"4H1G-A\", \"cluster_id\": 4, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 5.110263824462891, \"umap_y\": 3.345593214035034, \"name\": \"4M9Z-A\", \"cluster_id\": 5, \"pred\": \"False\", \"binding_data\": false}, {\"umap_x\": 8.18140697479248, \"umap_y\": 2.042154312133789, \"name\": \"4MD7-E\", \"cluster_id\": 6, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 3.750417947769165, \"umap_y\": 0.6323211193084717, \"name\": \"5VY8-A\", \"cluster_id\": 5, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 3.516669511795044, \"umap_y\": 1.5903888940811157, \"name\": \"6GEJ-T\", \"cluster_id\": 5, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 3.5841715335845947, \"umap_y\": 1.4780620336532593, \"name\": \"6GEJ-U\", \"cluster_id\": 5, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 0.7990216016769409, \"umap_y\": 3.4072349071502686, \"name\": \"2EL9-A\", \"cluster_id\": 4, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 8.923789978027344, \"umap_y\": 1.3134210109710693, \"name\": \"4RC3-A\", \"cluster_id\": 6, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 3.1272084712982178, \"umap_y\": 7.473816871643066, \"name\": \"5C40-A\", \"cluster_id\": 2, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 2.9151859283447266, \"umap_y\": 3.136073112487793, \"name\": \"3J9V-F\", \"cluster_id\": 13, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 1.3805617094039917, \"umap_y\": 4.507726192474365, \"name\": \"2NZ2-A\", \"cluster_id\": 4, \"pred\": \"False\", \"binding_data\": false}, {\"umap_x\": 8.871670722961426, \"umap_y\": 1.3768277168273926, \"name\": \"3BGP-A\", \"cluster_id\": 6, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 8.528809547424316, \"umap_y\": 1.8153105974197388, \"name\": \"3EQC-A\", \"cluster_id\": 6, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 7.762673854827881, \"umap_y\": 2.450105905532837, \"name\": \"5HTK-A\", \"cluster_id\": 6, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 3.7167482376098633, \"umap_y\": 4.043332576751709, \"name\": \"1DTS-A\", \"cluster_id\": 4, \"pred\": \"False\", \"binding_data\": false}, {\"umap_x\": 4.383436679840088, \"umap_y\": 0.43890297412872314, \"name\": \"2HYI-C\", \"cluster_id\": 12, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 8.480488777160645, \"umap_y\": 1.7215731143951416, \"name\": \"5Y86-A\", \"cluster_id\": 6, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 1.3317006826400757, \"umap_y\": 4.057339668273926, \"name\": \"3TUP-A\", \"cluster_id\": 4, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 3.835763454437256, \"umap_y\": 4.71229362487793, \"name\": \"2EWN-A\", \"cluster_id\": 4, \"pred\": \"False\", \"binding_data\": false}, {\"umap_x\": 4.738947868347168, \"umap_y\": 0.7002535462379456, \"name\": \"6CB1-p\", \"cluster_id\": 12, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 4.00356388092041, \"umap_y\": 1.9930133819580078, \"name\": \"3JVU-A\", \"cluster_id\": 5, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 9.729697227478027, \"umap_y\": 1.3785405158996582, \"name\": \"6GU6-A\", \"cluster_id\": 6, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 3.0066215991973877, \"umap_y\": 5.758629322052002, \"name\": \"1GLD-G\", \"cluster_id\": 4, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 3.6590993404388428, \"umap_y\": 1.3064390420913696, \"name\": \"6QI8-A\", \"cluster_id\": 5, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 1.5123263597488403, \"umap_y\": 7.584483623504639, \"name\": \"1P4S-A\", \"cluster_id\": 8, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 6.717772960662842, \"umap_y\": 5.545510768890381, \"name\": \"6JB6-A\", \"cluster_id\": 3, \"pred\": \"False\", \"binding_data\": false}, {\"umap_x\": 2.539430856704712, \"umap_y\": 2.2605409622192383, \"name\": \"4AAR-A\", \"cluster_id\": 9, \"pred\": \"True\", \"binding_data\": true}, {\"umap_x\": 3.5100669860839844, \"umap_y\": 1.6467074155807495, \"name\": \"3THY-A\", \"cluster_id\": 5, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 8.25008773803711, \"umap_y\": 1.7087596654891968, \"name\": \"4TNB-A\", \"cluster_id\": 6, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 1.9371892213821411, \"umap_y\": 7.24331521987915, \"name\": \"2IYT-A\", \"cluster_id\": 8, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 3.231454610824585, \"umap_y\": 4.943239688873291, \"name\": \"3L6C-A\", \"cluster_id\": 4, \"pred\": \"False\", \"binding_data\": false}, {\"umap_x\": 3.397378921508789, \"umap_y\": 7.39109468460083, \"name\": \"5KB6-A\", \"cluster_id\": 2, \"pred\": \"False\", \"binding_data\": false}, {\"umap_x\": 6.962478160858154, \"umap_y\": 5.552497863769531, \"name\": \"4II2-C\", \"cluster_id\": 3, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 3.2000222206115723, \"umap_y\": 7.756593704223633, \"name\": \"5HFU-A\", \"cluster_id\": 2, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 5.911581039428711, \"umap_y\": 5.544895172119141, \"name\": \"2E0A-A\", \"cluster_id\": 3, \"pred\": \"False\", \"binding_data\": false}, {\"umap_x\": 10.158374786376953, \"umap_y\": 1.5456095933914185, \"name\": \"2F9G-A\", \"cluster_id\": 6, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 8.831657409667969, \"umap_y\": 1.9714323282241821, \"name\": \"5XVU-A\", \"cluster_id\": 6, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 6.737407684326172, \"umap_y\": 5.567911624908447, \"name\": \"4X57-A\", \"cluster_id\": 3, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 7.845284461975098, \"umap_y\": 2.2081947326660156, \"name\": \"4JA9-A\", \"cluster_id\": 6, \"pred\": \"False\", \"binding_data\": false}, {\"umap_x\": 0.40109017491340637, \"umap_y\": 8.156105995178223, \"name\": \"4ANE-A\", \"cluster_id\": 11, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 4.488315105438232, \"umap_y\": 5.184605598449707, \"name\": \"3OTB-A\", \"cluster_id\": 4, \"pred\": \"False\", \"binding_data\": false}, {\"umap_x\": 9.7931489944458, \"umap_y\": 1.279456615447998, \"name\": \"2W96-B\", \"cluster_id\": 6, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 1.353492259979248, \"umap_y\": 1.6432709693908691, \"name\": \"5GW5-g\", \"cluster_id\": 1, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 1.4789568185806274, \"umap_y\": 1.5180988311767578, \"name\": \"5GW5-q\", \"cluster_id\": 1, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 1.3112034797668457, \"umap_y\": 1.627112627029419, \"name\": \"5GW5-z\", \"cluster_id\": 1, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 5.844576358795166, \"umap_y\": 5.485478401184082, \"name\": \"1Y8N-A\", \"cluster_id\": 3, \"pred\": \"False\", \"binding_data\": false}, {\"umap_x\": 2.7315940856933594, \"umap_y\": 2.303354263305664, \"name\": \"4JN4-A\", \"cluster_id\": 9, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 3.873636484146118, \"umap_y\": 3.694302797317505, \"name\": \"6MHU-A\", \"cluster_id\": 4, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 1.7206119298934937, \"umap_y\": 7.4974188804626465, \"name\": \"1TEV-A\", \"cluster_id\": 8, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 1.3006848096847534, \"umap_y\": 3.5518364906311035, \"name\": \"4X5O-A\", \"cluster_id\": 4, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 7.704544544219971, \"umap_y\": 2.1164519786834717, \"name\": \"3PVW-A\", \"cluster_id\": 6, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 7.166014194488525, \"umap_y\": 5.490451812744141, \"name\": \"2AWF-A\", \"cluster_id\": 3, \"pred\": \"False\", \"binding_data\": false}, {\"umap_x\": 8.951348304748535, \"umap_y\": 1.3557130098342896, \"name\": \"3VN9-A\", \"cluster_id\": 6, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 6.325239181518555, \"umap_y\": 5.4585795402526855, \"name\": \"1BEH-A\", \"cluster_id\": 3, \"pred\": \"False\", \"binding_data\": false}, {\"umap_x\": 1.8240853548049927, \"umap_y\": 4.983726978302002, \"name\": \"2ZB2-A\", \"cluster_id\": 4, \"pred\": \"False\", \"binding_data\": false}, {\"umap_x\": 8.88896656036377, \"umap_y\": 1.3771289587020874, \"name\": \"5TUR-A\", \"cluster_id\": 6, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 0.9056310057640076, \"umap_y\": 3.2703778743743896, \"name\": \"5B63-A\", \"cluster_id\": 4, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 3.7259721755981445, \"umap_y\": 4.7485480308532715, \"name\": \"1HRU-A\", \"cluster_id\": 4, \"pred\": \"False\", \"binding_data\": false}, {\"umap_x\": 2.068972587585449, \"umap_y\": 7.031056880950928, \"name\": \"4TMK-A\", \"cluster_id\": 8, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 4.591625690460205, \"umap_y\": 0.5301241874694824, \"name\": \"5IY9-V\", \"cluster_id\": 12, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 3.792210578918457, \"umap_y\": 0.6591460704803467, \"name\": \"3JCP-I\", \"cluster_id\": 5, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 4.316412925720215, \"umap_y\": 4.987278461456299, \"name\": \"3UDT-A\", \"cluster_id\": 4, \"pred\": \"False\", \"binding_data\": false}, {\"umap_x\": 7.258773326873779, \"umap_y\": 5.380563735961914, \"name\": \"1JAT-A\", \"cluster_id\": 3, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 4.898744583129883, \"umap_y\": 3.950183868408203, \"name\": \"5NJ3-A\", \"cluster_id\": 4, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 2.336984157562256, \"umap_y\": 7.257640361785889, \"name\": \"3IIK-A\", \"cluster_id\": 8, \"pred\": \"True\", \"binding_data\": false}, {\"umap_x\": 9.82659912109375, \"umap_y\": 1.5305588245391846, \"name\": \"5FQD-C\", \"cluster_id\": 6, \"pred\": \"True\", \"binding_data\": false}]}}, {\"mode\": \"vega-lite\"});\n",
       "</script>"
      ],
      "text/plain": [
       "alt.Chart(...)"
      ]
     },
     "execution_count": 21,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "points.interactive()"
   ]
  },
  {
   "cell_type": "markdown",
   "id": "f3d65e6a",
   "metadata": {},
   "source": [
    "## Run feature attribution via IG"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 22,
   "id": "2fcedc2b",
   "metadata": {},
   "outputs": [
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "1E2Q-A True cluster_id: 8 \t 0.9073604060913706\n",
      "1QPG-A True cluster_id: 8 \t None\n",
      "2ORV-A True cluster_id: 8 \t None\n",
      "4AKE-A True cluster_id: 8 \t None\n",
      "2BBW-A True cluster_id: 8 \t None\n",
      "3ZLB-A True cluster_id: 8 \t None\n",
      "5NP8-A True cluster_id: 8 \t None\n",
      "2AKY-A True cluster_id: 8 \t None\n",
      "4Q1A-A True cluster_id: 8 \t None\n",
      "2C9Y-A True cluster_id: 8 \t None\n",
      "1ZD8-A True cluster_id: 8 \t None\n",
      "5JZV-A True cluster_id: 8 \t None\n",
      "3CH4-B True cluster_id: 8 \t None\n",
      "2FEM-A True cluster_id: 8 \t None\n",
      "1UKY-A True cluster_id: 8 \t None\n",
      "2A30-A True cluster_id: 8 \t None\n",
      "1FW8-A True cluster_id: 8 \t None\n",
      "1Z83-A True cluster_id: 8 \t None\n",
      "2TMK-A True cluster_id: 8 \t None\n",
      "2PAA-A True cluster_id: 8 \t 0.7678117048346056\n",
      "1P4S-A True cluster_id: 8 \t None\n",
      "2IYT-A True cluster_id: 8 \t None\n",
      "1TEV-A True cluster_id: 8 \t None\n",
      "4TMK-A True cluster_id: 8 \t None\n",
      "3IIK-A True cluster_id: 8 \t None\n"
     ]
    }
   ],
   "source": [
    "sequences = []\n",
    "    \n",
    "for i, r in df.iterrows():\n",
    "    if r['cluster_id'] == 8:\n",
    "        binding_sites = None\n",
    "        if mf_term in binding_data and r['name'] in binding_data[mf_term]:\n",
    "            binding_sites = binding_data[mf_term][r['name']][\"sites\"] \n",
    "        d = get_compiled_file(mf_term, r['name'], r['pred'], binding_sites=binding_sites, folder='.')\n",
    "        sequences.append(d)\n",
    "        print(r['name'], r['pred'], \"cluster_id:\" , r['cluster_id'], '\\t', d['auroc'])\n"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 26,
   "id": "a0e4ff26",
   "metadata": {},
   "outputs": [
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "25it [00:00, 147271.91it/s]\n"
     ]
    },
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "Using 8 threads\n",
      "Read 25 sequences (type: Protein) from ./inputATP_binding_cluster_8.fasta\n",
      "not more sequences (25) than cluster-size (100), turn off mBed\n",
      "Calculating pairwise ktuple-distances...\n",
      "Ktuple-distance calculation progress: 0 % (0 out of 325)\n",
      "Ktuple-distance calculation progress: 1 % (5 out of 325)\n",
      "Ktuple-distance calculation progress: 2 % (7 out of 325)\n",
      "Ktuple-distance calculation progress: 3 % (10 out of 325)\n",
      "Ktuple-distance calculation progress: 19 % (63 out of 325)\n",
      "Ktuple-distance calculation progress: 30 % (100 out of 325)\n",
      "Ktuple-distance calculation progress: 34 % (111 out of 325)\n",
      "Ktuple-distance calculation progress: 36 % (118 out of 325)\n",
      "Ktuple-distance calculation progress: 42 % (138 out of 325)\n",
      "Ktuple-distance calculation progress: 47 % (154 out of 325)\n",
      "Ktuple-distance calculation progress: 56 % (183 out of 325)\n",
      "Ktuple-distance calculation progress: 57 % (187 out of 325)\n",
      "Ktuple-distance calculation progress: 60 % (197 out of 325)\n",
      "Ktuple-distance calculation progress: 71 % (232 out of 325)\n",
      "Ktuple-distance calculation progress: 74 % (242 out of 325)\n",
      "Ktuple-distance calculation progress: 75 % (245 out of 325)\n",
      "Ktuple-distance calculation progress: 77 % (251 out of 325)\n",
      "Ktuple-distance calculation progress: 78 % (254 out of 325)\n",
      "Ktuple-distance calculation progress: 79 % (258 out of 325)\n",
      "Ktuple-distance calculation progress: 80 % (260 out of 325)\n",
      "Ktuple-distance calculation progress: 84 % (274 out of 325)\n",
      "Pairwise distance matrix written to ./distmat\n",
      "Ktuple-distance calculation progress done. CPU time: 0.08u 0.00s 00:00:00.08 Elapsed: 00:00:00\n",
      "Guide-tree computation done.\n",
      "Progressive alignment progress: 4 % (1 out of 24)\n",
      "Progressive alignment progress: 8 % (2 out of 24)\n",
      "Progressive alignment progress: 12 % (3 out of 24)\n",
      "Progressive alignment progress: 16 % (4 out of 24)\n",
      "Progressive alignment progress: 20 % (5 out of 24)\n",
      "Progressive alignment progress: 25 % (6 out of 24)\n",
      "Progressive alignment progress: 29 % (7 out of 24)\n",
      "Progressive alignment progress: 33 % (8 out of 24)\n",
      "Progressive alignment progress: 37 % (9 out of 24)\n",
      "Progressive alignment progress: 41 % (10 out of 24)\n",
      "Progressive alignment progress: 45 % (11 out of 24)\n",
      "Progressive alignment progress: 50 % (12 out of 24)\n",
      "Progressive alignment progress: 54 % (13 out of 24)\n",
      "Progressive alignment progress: 58 % (14 out of 24)\n",
      "Progressive alignment progress: 62 % (15 out of 24)\n",
      "Progressive alignment progress: 66 % (16 out of 24)\n",
      "Progressive alignment progress: 70 % (17 out of 24)\n",
      "Progressive alignment progress: 75 % (18 out of 24)\n",
      "Progressive alignment progress: 79 % (19 out of 24)\n",
      "Progressive alignment progress: 83 % (20 out of 24)\n",
      "Progressive alignment progress: 87 % (21 out of 24)\n",
      "Progressive alignment progress: 91 % (22 out of 24)\n",
      "Progressive alignment progress: 95 % (23 out of 24)\n",
      "Progressive alignment progress: 100 % (24 out of 24)\n",
      "Progressive alignment progress done. CPU time: 2.04u 0.02s 00:00:02.06 Elapsed: 00:00:00\n",
      "Alignment written to ./outputATP_binding_cluster_8.fasta\n",
      "\n",
      "\n"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "25it [00:00, 132229.00it/s]\n"
     ]
    }
   ],
   "source": [
    "sequences = msa_alignment(sequences, 'ATP_binding_cluster_8')"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 28,
   "id": "77603e9b",
   "metadata": {},
   "outputs": [
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "25it [00:00, 2569.03it/s]\n"
     ]
    }
   ],
   "source": [
    "all_results = []\n",
    "\n",
    "for i, d in tqdm(enumerate(sequences)):\n",
    "    attribution = d[\"attribution_integrated_gradient\"]\n",
    "    sequence = d[\"sequence\"]\n",
    "    name = d[\"name\"]\n",
    "    alignment = d[\"alignment_result\"]\n",
    "    for j in range(len(sequence)):\n",
    "        all_results.append({\n",
    "            'aa': sequence[j],\n",
    "            'attr': float(attribution[j]),\n",
    "            'j': j,\n",
    "            'j_aligned': alignment[j],\n",
    "            'i': i,\n",
    "            'name': name\n",
    "        })\n",
    "        \n",
    "import pandas as pd\n",
    "df = pd.DataFrame.from_dict(all_results)\n",
    "\n",
    "df.to_csv(os.path.join('./', \"ATP_binding_MSA_Cluster_8.csv\"))\n",
    "        "
   ]
  },
  {
   "cell_type": "markdown",
   "id": "2a0c19f1",
   "metadata": {},
   "source": [
    "## MSA Alignment"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 25,
   "id": "d505c1c9",
   "metadata": {},
   "outputs": [],
   "source": [
    "# input sequences in the format of [{sequence: , name: }], file name marks mf function and cluster number\n",
    "# output sequences in the format of [{sequence: , name: , aligned_sequence}]\n",
    "from tqdm import tqdm\n",
    "\n",
    "def msa_alignment(sequences, filename_postfix):\n",
    "    \n",
    "    import os\n",
    "    from Bio.Align.Applications import ClustalOmegaCommandline\n",
    "\n",
    "    temp_dir = './'\n",
    "\n",
    "    # Generate FASTA file\n",
    "    infile = os.path.join(temp_dir, \"input\" + filename_postfix + \".fasta\")\n",
    "    with open(infile, \"w+\") as f:\n",
    "        for i, d in tqdm(enumerate(sequences)):\n",
    "            sequence = d[\"sequence\"]\n",
    "            name = d[\"name\"]\n",
    "            line=f\">{name}\\n{sequence}\\n\"\n",
    "            f.write(line)\n",
    "\n",
    "    clustal_path = \"/home/ec2-user/SageMaker/efs/install/clustalo-1.2.4-Ubuntu-x86_64\"\n",
    "\n",
    "    outfile = os.path.join(temp_dir, \"output\"+ filename_postfix +\".fasta\")\n",
    "    distmat = os.path.join(temp_dir, \"distmat\")\n",
    "    clusters = os.path.join(temp_dir, \"clusters\")\n",
    "    guidetree = os.path.join(temp_dir, \"guidetree\")\n",
    "    clustalo_cline = ClustalOmegaCommandline(clustal_path, \n",
    "                                             infile=infile, \n",
    "                                             outfile=outfile, \n",
    "                                             verbose=True,  \n",
    "                                             force=True,\n",
    "                                             distmat_full=True,\n",
    "                                             distmat_out=distmat,\n",
    "                                             # clusteringout=clusters,\n",
    "                                             # guidetree_out=guidetree,\n",
    "                                             percentid=True\n",
    "                                            )\n",
    "\n",
    "    stdout, stderr = clustalo_cline()\n",
    "    print(stdout)\n",
    "    print(stderr)\n",
    "    \n",
    "    from Bio import SeqIO\n",
    "\n",
    "    ## get seq alignment index\n",
    "    alignment_results = {}\n",
    "\n",
    "    for record in SeqIO.parse(os.path.join(temp_dir, \"output\" + filename_postfix + \".fasta\"), \"fasta\"):\n",
    "        name, sequence = record.id, record.seq\n",
    "        alignment_results[name] = {}\n",
    "        idx = 0\n",
    "        for i, c in enumerate(sequence):\n",
    "            if c != '-':\n",
    "                alignment_results[name][idx] = i\n",
    "                idx += 1\n",
    "                \n",
    "    for i, d in tqdm(enumerate(sequences)):\n",
    "        name = d[\"name\"]\n",
    "        d[\"alignment_result\"] = alignment_results[name]\n",
    "        \n",
    "    return sequences    "
   ]
  }
 ],
 "metadata": {
  "kernelspec": {
   "display_name": "conda_pytorch_latest_p36_clone",
   "language": "python",
   "name": "conda_pytorch_latest_p36_clone"
  },
  "language_info": {
   "codemirror_mode": {
    "name": "ipython",
    "version": 3
   },
   "file_extension": ".py",
   "mimetype": "text/x-python",
   "name": "python",
   "nbconvert_exporter": "python",
   "pygments_lexer": "ipython3",
   "version": "3.6.13"
  }
 },
 "nbformat": 4,
 "nbformat_minor": 5
}