tensorflow-data-validation
Validation des données TensorFlow
Validation des données TensorFlow(TFDV) est une bibliothèque pour l'exploration et la validation données d'apprentissage automatique. Il est conçu pour être hautement scalable et de travailler bien avec TensorFlow etTensorFlow Extended (TFX).
La validation des données TF comprend :
- Calcul scalable des statistiques résumées des données de formation et de test.
- Intégration avec un spectateur pour les distributions de données et les statistiques, ainsi que par rapport à la comparaison des paires de caractères (Les facettes)
- AutomatiséSchéma de données génération pour décrire les attentes sur les données comme les valeurs requises, les rangs et les vocabulaires
- Un visualisateur de schéma pour vous aider à vérifier le schéma.
- Détection anormale pour identifierLes anomalies, comme les caractéristiques manquantes, Les valeurs out-of-range, ou les types de fonctionnalités erronées, pour nommer quelques-uns.
- Un visualisateur d'anomalies afin que vous puissiez voir quelles caractéristiques ont des anomalies et En savoir plus pour les corriger.
Pour les instructions sur l'utilisation de TFDV, voir leCommencez par guide et essayez leExemple de note. Certaines des techniques mises en œuvre dans le TFDV sont décrites dans un document technique publié dans SysML'19.
Installation à partir de Pypi
La façon recommandée d'installer TFDV est d'utiliser le Package de pypià :
pip install tensorflow-data-validation
Package nocturne
TFDV héberge également des paquets nocturnes sur https://pypi-nightly.tensorflow.org Google Cloud. Pour installer le dernier paquet de nuit, veuillez utiliser les éléments suivants : Commande :
export TFX_DEPENDENCY_SELECTOR=NIGHTLY
pip install --extra-index-url https://pypi-nightly.tensorflow.org/simple tensorflow-data-validation
Ceci installe les paquets nocturnes pour les principales dépendances de TFDV telles que comme TFX Basic Shared Libraries (TFX-BSL) et TensorFlow Metadata (TFMD).
Parfois, TFDV utilise les changements les plus récents de ces dépendances, qui ne sont pas encore
En raison de cela, il est plus sûr d'utiliser les versions nocturnes de ces
bibliothèques dépendantes lors de l'utilisation nocturne de TFDV.
TFX_DEPENDENCY_SELECTOR
Environnement variable pour le faire.
Construire avec Docker
C'est la façon recommandée de construire TFDV sous Linux, et est continuellement Testé sur Google.
Installer Docker
S'il vous plaît installer d'aborddocker
etdocker-compose
En suivant les directions :
Docteur;
Docteur-composition.
Clône du repository TFDV
git clone https://github.com/tensorflow/data-validation
cd data-validation
Notez que ces instructions installeront la dernière branche maîtresse de TensorFlow
Vérification des données. Si vous voulez installer une branche spécifique (comme une libération
Résumé : Pass-b <branchname>
à lagit clone
Le commandement.
Construire le paquet de pip
Ensuite, exécutez ce qui suit à la racine du projet:
sudo docker-compose build manylinux2010
sudo docker-compose run -e PYTHON_VERSION=${PYTHON_VERSION} manylinux2010
oùPYTHON_VERSION
est une de{37, 38, 39}
.
Une roue sera produite sousdist/
.
Installer le paquet pip
pip install dist/*.whl
Construit à partir de source
1 Les conditions préalables
Pour compiler et utiliser TFDV, vous devez définir certaines conditions préalables.
Installation NumPy
Si NumPy n'est pas installé sur votre système, installez-le maintenant en suivant :Ces directions.
Installation de Bazel
Si Bazel n'est pas installé sur votre système, installez-le maintenant en suivant :Ces directions.
Clône du repository TFDV
git clone https://github.com/tensorflow/data-validation
cd data-validation
Notez que ces instructions installeront la dernière branche maîtresse de TensorFlow
Vérification des données. Si vous voulez installer une branche spécifique (comme une libération
Résumé : Pass-b <branchname>
à lagit clone
Le commandement.
Construire le paquet de pip
TFDV
La roue est dépendante de la version Python - pour construire le paquet pip qui
fonctionne pour une version Python spécifique, utilisez que Python binaire pour exécuter:
python setup.py bdist_wheel
Vous pouvez trouver les générations.whl
fichier dans ledist
sous-directeur
Installer le paquet pip
pip install dist/*.whl
Plateformes soutenues
TFDV est testé sur les systèmes d'exploitation 64 bits suivants :
- macOS 10.14.6 (Mojave) ou ultérieur.
- Ubuntu 16.04 ou ultérieur.
- Windows 7 ou plus tard.
Des dépendances remarquables
TensorFlow est nécessaire.
Les Apache Beamest nécessaire ; c’est la façon dont l’efficacité Comptabilité distribuée est supportée. par défaut, Apache Beam fonctionne localement mode mais peut également fonctionner dans le mode distribué en utilisant Le Google Cloud Dataflowet d’autres apache Le Beam Rondeurs.
Apache ArrowIl est également nécessaire. TFDV utilise Arrow pour représente les données à l’intérieur afin d’utiliser les fonctions numpy vectorisées.
Versions compatibles
Le tableau ci-dessous montre les versions de paquets qui sont est compatible l'un avec l'autre. cela est déterminé par notre cadre de test, mais Autresnon testéLes combinaisons peuvent aussi fonctionner.
Validation des données tensorflow | Apache Beam[modifier modifier le code] | PYARROU | TENSORFLOY | Les métadonnées de tensorflow | Transformation de tensorflow | TFX-BSL |
---|---|---|---|---|---|---|
Le GitHub Master | 2 0 0 0 | 0 0 0 0 | de la nuit (1 x / 2 x) | 1 0 0 0 | N / A | 1.10 1 |
1 0 0 0 | 2 0 0 0 | 0 0 0 0 | 1 5 / 2 9 | 1 0 0 0 | N / A | 1.10 1 |
1 9.0 | 2 8.0 | 5.0 0 | 1 5 / 2 9 | 1 9.0 | N / A | 1 9.0 |
1.8 0 | 2 8.0 | 5.0 0 | 1 5 / 2 8 | 1.8 0 | N / A | 1.8 0 |
1 7.0 | 2 0 0 0 | 5.0 0 | 1 5 / 2 8 | 1 7.0 | N / A | 1 7.0 |
1 6.0 | 2 3 0 0 | 5.0 0 | 1 5 / 2 7 | 1 6.0 | N / A | 1 6.0 |
1.5 0 | 2 3 0 0 | 5.0 0 | 1 5 / 2 7 | 1.5 0 | N / A | 1.5 0 |
1 1 0 | 2 2 0 0 | 4.1 1 | 1 5 / 2 6 | 1 1 0 | N / A | 1 1 0 |
1.3 0 | 2 2 0 0 | 0 0 0 | 1 5 / 2 6 | 1 0 0 | N / A | 1.3 0 |
1 0 0 | 3 0 0 0 | 0 0 0 | 1 5 / 5 | 1 0 0 | N / A | 1 0 0 |
1 1 1 | 2 0 0 0 | 0 0 0 | 1 5 / 5 | 1 1 1 | N / A | 1 1 1 |
1 1 1 | 2 0 0 0 | 0 0 0 | 1 5 / 5 | 1 1 1 | N / A | 1 1 1 |
1 0 0 | 2 0 0 0 | 0 0 0 | 1 5 / 5 | 1 0 0 | N / A | 1 0 0 |
0 0 0 0 | 2 0 0 0 | 0 0 0 | 1 5 / 2 | 0 0 0 0 | N / A | 0 0 0 0 |
0 0 0 0 | 2 0 0 0 | 0 0 0 | 1 5 / 2 | 0 0 0 0 | N / A | 0 0 0 0 |
0 0 0 0 | 2 0 0 0 | 0 0 0 | 1 5 / 2 | 0 0 0 0 | N / A | 1 88.1 |
0 0 0 0 | 2 7.0 | 0 0 0 | 1 5 / 2 | 0 0 0 0 | N / A | 0 0 0 0 |
1 66.1 | 2 0 0 0 | 0 0 0 0 | 1 5 / 2 | 0 0 0 0 | 0 0 0 0 | 0 0 0 0 |
0 0 0 0 | 2 0 0 0 | 0 0 0 0 | 1 5 / 2 | 0 0 0 0 | 0 0 0 0 | 0 0 0 0 |
0 0 0 0 | 2 0 0 0 | 0 0 0 0 | 1 5 / 2 | 0 0 0 0 | 0 0 0 0 | 0 0 0 0 |
0,241 | 2 24.0 | 0 0 0 0 | 1 5 / 2 | 0 0 0 0 | 0,241 | 0,241 |
0 0 0 0 | 2 3 0 0 | 0 0 0 0 | 1 5 / 2 | 0 0 0 0 | 0 0 0 0 | 0 0 0 0 |
0,23,1 | 2 24.0 | 0 0 0 0 | 1 5 / 2 | 0 0 0 0 | 0 0 0 0 | 0 0 0 0 |
0 0 0 0 | 2 3 0 0 | 0 0 0 0 | 1 5 / 2 | 0 0 0 0 | 0 0 0 0 | 0 0 0 0 |
2 2 2 2 | 2 20.0 | 0 0 0 0 | 1 5 / 2 | 0 0 0 0 0 | 0 0 0 0 0 | 1 2 2 1 |
1 2 2 1 | 2 20.0 | 0 0 0 0 | 1 5 / 2 | 0 0 0 0 0 | 0 0 0 0 0 | 1 2 2 1 |
0 0 0 0 0 | 2 20.0 | 0 0 0 0 | 1 5 / 2 | 0 0 0 0 0 | 0 0 0 0 0 | 0 0 0 0 0 |
1 1 2 5 | 2 17.0 | 0 0 0 0 | 1 1 1 1 1 | 0 0 0 0 | 1 1 1 1 | 021 3 |
0.21 à 4 | 2 17.0 | 0 0 0 0 | 1 1 1 1 1 | 0 0 0 0 | 1 1 1 1 | 021 3 |
0.21 et 2 | 2 17.0 | 0 0 0 0 | 1 1 1 1 1 | 0 0 0 0 | 0 0 0 0 | 0 0 0 0 |
1 1 1 1 | 2 17.0 | 0 0 0 0 | 1 1 1 1 1 | 0 0 0 0 | 0 0 0 0 | 0 0 0 0 |
0 0 0 0 | 2 17.0 | 0 0 0 0 | 1 1 1 1 1 | 0 0 0 0 | 0 0 0 0 | 0 0 0 0 |
0 0 0 0 | 2 16.0 | 0 0 0 0 | 1 5 / 2 | 0 0 0 0 | 0 0 0 0 | 0 0 0 0 |
0141 | 2 14.0 | 0 0 0 0 | 1.14 | 0 0 0 0 | 0 0 0 0 | N / A |
0 0 0 0 | 2 14.0 | 0 0 0 0 | 1.14 | 0 0 0 0 | 0 0 0 0 | N / A |
0131 | 2 0 0 0 | N / A | 1.13 | 0121 | 0 0 0 0 | N / A |
0 0 0 0 | 2 0 0 0 | N / A | 1.13 | 0121 | 0 0 0 0 | N / A |
0 0 0 0 | 2 0 0 0 | N / A | 1.12 | 0121 | 0 0 0 0 | N / A |
0 0 0 0 | 2 8.0 | N / A | 1.11 | 0 0 0 0 | 0 0 0 0 | N / A |
0 0 0 0 | 2 6.0 | N / A | 1.9 | N / A | N / A | N / A |
Questions
Veuillez adresser toutes les questions concernant le travail avec TF Data Validation à Le Stack OverflowEn utilisant le Validation des données tensorflow et le tag.