Plumbing for CSV import from online logs

2025-09-26 21:08:41 -07:00
parent c75365b856
commit e5698fec7b
1 changed files with 21 additions and 4 deletions
--- a/ucsinfer/main.py
+++ b/ucsinfer/main.py
@@ -1,11 +1,8 @@
 import os
-# import csv
 import logging
 from itertools import chain

-import tqdm
 import click
-# from tabulate import tabulate, SEPARATING_LINE

 from .inference import InferenceContext, load_ucs
 from .gather import (build_sentence_class_dataset, print_dataset_stats, 
@@ -136,6 +133,26 @@ def recommend(ctx, text, paths, interactive, skip_ucs):
                os.rename(path, new_path)
                break
        
+@ucsinfer.command('csv')
+@click.option('--filename-col', default="FileName", 
+              help="Heading or index of the column containing filenames",
+              show_default=True)
+@click.option('--description-col', default="TrackDescription", 
+              help="Heading or index of the column containing descriptions",
+              show_default=True)
+@click.option('--out', default='dataset/', show_default=True)
+@click.argument('paths', nargs=-1)
+@click.pass_context
+def csv(ctx, paths, out, filename_col, description_col):
+    """
+    Scan training data from CSV files 
+
+    `csv` is used to build a training dataset for finetuning the selected 
+    model, as like the `gather` command, except instead of scanning the 
+    file system it builds a dataset from descriptions and UCS filenames in 
+    columns of a CSV file.
+    """
+    pass

@ucsinfer.command('gather')
@click.option('--out', default='dataset/', show_default=True)
@@ -146,7 +163,7 @@ def recommend(ctx, text, paths, interactive, skip_ucs):
@click.pass_context
 def gather(ctx, paths, out, ucs_data):
    """
-    Scan files to build a training dataset
+    Scan training data from audio files
    
    `gather` is used to build a training dataset for finetuning the selected
    model. Description sentences and UCS categories are collected from '.wav'