Validation des données TensorFlow

Python PyPI Documentation

Validation des données TensorFlow(TFDV) est une bibliothèque pour l'exploration et la validation données d'apprentissage automatique. Il est conçu pour être hautement scalable et de travailler bien avec TensorFlow etTensorFlow Extended (TFX).

La validation des données TF comprend :

  • Calcul scalable des statistiques résumées des données de formation et de test.
  • Intégration avec un spectateur pour les distributions de données et les statistiques, ainsi que par rapport à la comparaison des paires de caractères (Les facettes)
  • AutomatiséSchéma de données génération pour décrire les attentes sur les données comme les valeurs requises, les rangs et les vocabulaires
  • Un visualisateur de schéma pour vous aider à vérifier le schéma.
  • Détection anormale pour identifierLes anomalies, comme les caractéristiques manquantes, Les valeurs out-of-range, ou les types de fonctionnalités erronées, pour nommer quelques-uns.
  • Un visualisateur d'anomalies afin que vous puissiez voir quelles caractéristiques ont des anomalies et En savoir plus pour les corriger.

Pour les instructions sur l'utilisation de TFDV, voir leCommencez par guide et essayez leExemple de note. Certaines des techniques mises en œuvre dans le TFDV sont décrites dans un document technique publié dans SysML'19.

Installation à partir de Pypi

La façon recommandée d'installer TFDV est d'utiliser le Package de pypià :

pip install tensorflow-data-validation

Package nocturne

TFDV héberge également des paquets nocturnes sur https://pypi-nightly.tensorflow.org Google Cloud. Pour installer le dernier paquet de nuit, veuillez utiliser les éléments suivants : Commande :

export TFX_DEPENDENCY_SELECTOR=NIGHTLY
pip install --extra-index-url https://pypi-nightly.tensorflow.org/simple tensorflow-data-validation

Ceci installe les paquets nocturnes pour les principales dépendances de TFDV telles que comme TFX Basic Shared Libraries (TFX-BSL) et TensorFlow Metadata (TFMD).

Parfois, TFDV utilise les changements les plus récents de ces dépendances, qui ne sont pas encore En raison de cela, il est plus sûr d'utiliser les versions nocturnes de ces bibliothèques dépendantes lors de l'utilisation nocturne de TFDV. TFX_DEPENDENCY_SELECTOREnvironnement variable pour le faire.

Construire avec Docker

C'est la façon recommandée de construire TFDV sous Linux, et est continuellement Testé sur Google.

Installer Docker

S'il vous plaît installer d'aborddockeretdocker-composeEn suivant les directions : Docteur; Docteur-composition.

Clône du repository TFDV

git clone https://github.com/tensorflow/data-validation
cd data-validation

Notez que ces instructions installeront la dernière branche maîtresse de TensorFlow Vérification des données. Si vous voulez installer une branche spécifique (comme une libération Résumé : Pass-b <branchname>à lagit cloneLe commandement.

Construire le paquet de pip

Ensuite, exécutez ce qui suit à la racine du projet:

sudo docker-compose build manylinux2010
sudo docker-compose run -e PYTHON_VERSION=${PYTHON_VERSION} manylinux2010

PYTHON_VERSIONest une de{37, 38, 39}.

Une roue sera produite sousdist/.

Installer le paquet pip

pip install dist/*.whl

Construit à partir de source

1 Les conditions préalables

Pour compiler et utiliser TFDV, vous devez définir certaines conditions préalables.

Installation NumPy

Si NumPy n'est pas installé sur votre système, installez-le maintenant en suivant :Ces directions.

Installation de Bazel

Si Bazel n'est pas installé sur votre système, installez-le maintenant en suivant :Ces directions.

Clône du repository TFDV

git clone https://github.com/tensorflow/data-validation
cd data-validation

Notez que ces instructions installeront la dernière branche maîtresse de TensorFlow Vérification des données. Si vous voulez installer une branche spécifique (comme une libération Résumé : Pass-b <branchname>à lagit cloneLe commandement.

Construire le paquet de pip

TFDVLa roue est dépendante de la version Python - pour construire le paquet pip qui fonctionne pour une version Python spécifique, utilisez que Python binaire pour exécuter:

python setup.py bdist_wheel

Vous pouvez trouver les générations.whlfichier dans ledistsous-directeur

Installer le paquet pip

pip install dist/*.whl

Plateformes soutenues

TFDV est testé sur les systèmes d'exploitation 64 bits suivants :

  • macOS 10.14.6 (Mojave) ou ultérieur.
  • Ubuntu 16.04 ou ultérieur.
  • Windows 7 ou plus tard.

Des dépendances remarquables

TensorFlow est nécessaire.

Les Apache Beamest nécessaire ; c’est la façon dont l’efficacité Comptabilité distribuée est supportée. par défaut, Apache Beam fonctionne localement mode mais peut également fonctionner dans le mode distribué en utilisant Le Google Cloud Dataflowet d’autres apache Le Beam Rondeurs.

Apache ArrowIl est également nécessaire. TFDV utilise Arrow pour représente les données à l’intérieur afin d’utiliser les fonctions numpy vectorisées.

Versions compatibles

Le tableau ci-dessous montre les versions de paquets qui sont est compatible l'un avec l'autre. cela est déterminé par notre cadre de test, mais Autresnon testéLes combinaisons peuvent aussi fonctionner.

Validation des données tensorflow Apache Beam[modifier modifier le code] PYARROU TENSORFLOY Les métadonnées de tensorflow Transformation de tensorflow TFX-BSL
Le GitHub Master 2 0 0 0 0 0 0 0 de la nuit (1 x / 2 x) 1 0 0 0 N / A 1.10 1
1 0 0 0 2 0 0 0 0 0 0 0 1 5 / 2 9 1 0 0 0 N / A 1.10 1
1 9.0 2 8.0 5.0 0 1 5 / 2 9 1 9.0 N / A 1 9.0
1.8 0 2 8.0 5.0 0 1 5 / 2 8 1.8 0 N / A 1.8 0
1 7.0 2 0 0 0 5.0 0 1 5 / 2 8 1 7.0 N / A 1 7.0
1 6.0 2 3 0 0 5.0 0 1 5 / 2 7 1 6.0 N / A 1 6.0
1.5 0 2 3 0 0 5.0 0 1 5 / 2 7 1.5 0 N / A 1.5 0
1 1 0 2 2 0 0 4.1 1 1 5 / 2 6 1 1 0 N / A 1 1 0
1.3 0 2 2 0 0 0 0 0 1 5 / 2 6 1 0 0 N / A 1.3 0
1 0 0 3 0 0 0 0 0 0 1 5 / 5 1 0 0 N / A 1 0 0
1 1 1 2 0 0 0 0 0 0 1 5 / 5 1 1 1 N / A 1 1 1
1 1 1 2 0 0 0 0 0 0 1 5 / 5 1 1 1 N / A 1 1 1
1 0 0 2 0 0 0 0 0 0 1 5 / 5 1 0 0 N / A 1 0 0
0 0 0 0 2 0 0 0 0 0 0 1 5 / 2 0 0 0 0 N / A 0 0 0 0
0 0 0 0 2 0 0 0 0 0 0 1 5 / 2 0 0 0 0 N / A 0 0 0 0
0 0 0 0 2 0 0 0 0 0 0 1 5 / 2 0 0 0 0 N / A 1 88.1
0 0 0 0 2 7.0 0 0 0 1 5 / 2 0 0 0 0 N / A 0 0 0 0
1 66.1 2 0 0 0 0 0 0 0 1 5 / 2 0 0 0 0 0 0 0 0 0 0 0 0
0 0 0 0 2 0 0 0 0 0 0 0 1 5 / 2 0 0 0 0 0 0 0 0 0 0 0 0
0 0 0 0 2 0 0 0 0 0 0 0 1 5 / 2 0 0 0 0 0 0 0 0 0 0 0 0
0,241 2 24.0 0 0 0 0 1 5 / 2 0 0 0 0 0,241 0,241
0 0 0 0 2 3 0 0 0 0 0 0 1 5 / 2 0 0 0 0 0 0 0 0 0 0 0 0
0,23,1 2 24.0 0 0 0 0 1 5 / 2 0 0 0 0 0 0 0 0 0 0 0 0
0 0 0 0 2 3 0 0 0 0 0 0 1 5 / 2 0 0 0 0 0 0 0 0 0 0 0 0
2 2 2 2 2 20.0 0 0 0 0 1 5 / 2 0 0 0 0 0 0 0 0 0 0 1 2 2 1
1 2 2 1 2 20.0 0 0 0 0 1 5 / 2 0 0 0 0 0 0 0 0 0 0 1 2 2 1
0 0 0 0 0 2 20.0 0 0 0 0 1 5 / 2 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
1 1 2 5 2 17.0 0 0 0 0 1 1 1 1 1 0 0 0 0 1 1 1 1 021 3
0.21 à 4 2 17.0 0 0 0 0 1 1 1 1 1 0 0 0 0 1 1 1 1 021 3
0.21 et 2 2 17.0 0 0 0 0 1 1 1 1 1 0 0 0 0 0 0 0 0 0 0 0 0
1 1 1 1 2 17.0 0 0 0 0 1 1 1 1 1 0 0 0 0 0 0 0 0 0 0 0 0
0 0 0 0 2 17.0 0 0 0 0 1 1 1 1 1 0 0 0 0 0 0 0 0 0 0 0 0
0 0 0 0 2 16.0 0 0 0 0 1 5 / 2 0 0 0 0 0 0 0 0 0 0 0 0
0141 2 14.0 0 0 0 0 1.14 0 0 0 0 0 0 0 0 N / A
0 0 0 0 2 14.0 0 0 0 0 1.14 0 0 0 0 0 0 0 0 N / A
0131 2 0 0 0 N / A 1.13 0121 0 0 0 0 N / A
0 0 0 0 2 0 0 0 N / A 1.13 0121 0 0 0 0 N / A
0 0 0 0 2 0 0 0 N / A 1.12 0121 0 0 0 0 N / A
0 0 0 0 2 8.0 N / A 1.11 0 0 0 0 0 0 0 0 N / A
0 0 0 0 2 6.0 N / A 1.9 N / A N / A N / A

Questions

Veuillez adresser toutes les questions concernant le travail avec TF Data Validation à Le Stack OverflowEn utilisant le Validation des données tensorflow et le tag.

gauche