Файлы в формате CSV

Формат файлов CSV в основном предназначен для создания и хранения электронных таблиц.

Само название формата происходит от английского: Comma Separated Values, что в переводе буквально означает: значения разделённые запятыми. Впрочем, разделителями для значений могут быть и не только запятые, т.к. например, в MS Excel запятыми отделяется дробная часть от целой для чисел.

Сам формат файлов является текстовым. Каждая строка такого файла - это строка таблицы. А каждая ячейка отделена разделителем, в качестве которых могут быть: запятая,  точка с запятой, пробел или символ табуляции (единого стандарта не существует). Ячейки в таблице размещаются в строках слева на право.

Поскольку электронные таблицы удобны для заполнения их вручную или автоматически, то данный формат зачастую используется и в машинном обучении для хранения и передачи выборок.

Поэтому мы не будем обсуждать, иные способы хранения данных, а разберёмся только с форматами выборок для машинного обучения.

Две верхние строчки используются для того, чтобы идентифицировать данные, хранящиеся в таблицах. Первая строка - это наименования, вторая - примечания или единицы измерений.

Ниже идут примеры в выборке, по одному на каждую строку.

Первая ячейка для каждого примера - это его идентификатор, чтобы можно было разобраться откуда были взяты данные для него. Например, если проводились клинические испытания, то идентификатором может быть фамилия и инициалы испытуемого.
Последующие более правые столбцы - это значения объясняющих переменных, по одному столбцу на каждую переменную.
Замыкающими столбцами справа являются значения зависимых переменных, также по одному столбцу на каждую переменную. Для бинарных классификаторов зависимые переменные обозначаются двумя числами: 1 - пример принадлежит к целевому классу, 0 - пример принадлежит к какому либо иному классу, но нецелевому.

Поскольку VMR является бинарным классификатором, то для него всё вышеуказанное является базовой основой.

В качестве разделителя ячеек электронных таблиц в VMR используется только точка с запятой. В качестве разделителя целой части от дробной может быть, как точка, так и запятая (парсер автоматически все запятые заменяет точками).

Юрий Решетов
Comments