Improve Coverage Rate & Cat2B efficiency

Former-commit-id: b06d9553f0 [formerly c2ba83a367] [formerly 0a1fdbb12b [formerly 9332909a22]] [formerly 97e54071ea [formerly fb3ca0b67b] [formerly d4aa857415 [formerly 88f3557eca]]] [formerly 0f564d54d3 [formerly c04656f50f] [formerly c3d40d57a1 [formerly cdfdefd78f]] [formerly d93f7d08bd [formerly 16962a5e17] [formerly fb83528d31 [formerly 9814322799]]]] [formerly 8873655019 [formerly f689e08249] [formerly 0a14dd6227 [formerly 37e1c15e7a]] [formerly 00f3835b88 [formerly 87cde37c0d] [formerly 4397306261 [formerly 14a2b5b83a]]] [formerly e15e47fb6f [formerly 5f02043bbf] [formerly fc4d0c62df [formerly fb5eda739c]] [formerly 6536793159 [formerly 38029bb10d] [formerly 1bb6d2901e [formerly be528e4d8c]]]]] [formerly 5ad8ebf1a8 [formerly 59a82b9e3d] [formerly ffa1da0f9e [formerly a577c665fb]] [formerly 2b64b374f9 [formerly cb90bb2949] [formerly 3306a98612 [formerly 82fcb05309]]] [formerly 563eb002cd [formerly 4c97f25cf1] [formerly d33c246031 [formerly ef3a2959eb]] [formerly 2962a88f29 [formerly 4bb55160c3] [formerly 4e9d224827 [formerly 2a694a9a7a]]]] [formerly e0f1edd0b3 [formerly a2bc1f5faa] [formerly 8387dde358 [formerly 9a936c6dc1]] [formerly 71331a05bf [formerly 54ebcbda2e] [formerly a2d4239749 [formerly f6d5e81370]]] [formerly 1baacf1cc7 [formerly 0ed6958f22] [formerly 3a92155298 [formerly 6f73068424]] [formerly 86d39cbf7d [formerly d778ceb53b] [formerly 14f6c432e3 [formerly e7e4070ecc]]]]]] Former-commit-id: d334057ffb [formerly e2e5ab707d] [formerly e40a1b7aee [formerly 20358f5d43]] [formerly 951d56af1b [formerly 9454eccd15] [formerly def9f973f6 [formerly 708e2921aa]]] [formerly 88514e765c [formerly fe4ea06c51] [formerly 006b97968e [formerly a9b99069a0]] [formerly e7f3fb4d09 [formerly 6a1db29bcc] [formerly c80dd2787b [formerly de54c55bb3]]]] [formerly 7cac5b0835 [formerly 1645c634d5] [formerly a70225dbde [formerly ab560c7443]] [formerly b7ee0fa9a4 [formerly aef05874fd] [formerly f0191b23f6 [formerly 60324b482f]]] [formerly 1f8d63756c [formerly 04c331d5a5] [formerly 88ce01847d [formerly aeea169f14]] [formerly b5ed8e6426 [formerly 1520073005] [formerly 14f6c432e3]]]] Former-commit-id: 38a35d38a0 [formerly 319699b0ef] [formerly 9737fb346b [formerly c1aef6aa85]] [formerly e99c61d025 [formerly e5cd46102b] [formerly 2699911c37 [formerly 4d9a6cb72c]]] [formerly 683191bd81 [formerly e176d1757f] [formerly 777ba130a3 [formerly 062579db9a]] [formerly 0fbcc96a75 [formerly 8ab360690c] [formerly d5d3c45c16 [formerly c5d502c1d6]]]] Former-commit-id: bedd762ef9 [formerly 47dca9bb80] [formerly ca0ac6ac9d [formerly 90a3616f23]] [formerly 6a052245cf [formerly 412a202738] [formerly cfca1e15ba [formerly 459069e44f]]] Former-commit-id: fc34de216a [formerly 251839dbd7] [formerly 24380726f9 [formerly 73698c13a0]] Former-commit-id: 672911264b [formerly 4d60d9983d] Former-commit-id: 9ea50f999b
4 years ago · 9525a6f7d0
--- a/tested_file.txt
+++ b/tested_file.txt
@@ -0,0 +1 @@
 build_ABOD_pipline.py
--- a/tods/data_processing/CategoricalToBinary.py
+++ b/tods/data_processing/CategoricalToBinary.py
@@ -81,34 +81,38 @@ class Cat2B:
        dataframe = inputs
        processed_df = utils.pandas.DataFrame()
        for target_column in dataframe.columns :
            try:
                req_col = pd.DataFrame(dataframe.loc[:,target_column])
                categories = req_col[target_column].unique()

                column_names = [target_column+'_'+str(i) for i in categories]
                column_dtype = req_col[target_column].dtype

                if column_dtype== np.object:
                    for i,j in zip(categories,column_names):
                        if i is not None:
                            req_col.loc[req_col[target_column]==i,j] = "1"
                            req_col.loc[req_col[target_column]!=i,j] = "0"
                        else:
                            req_col.loc[req_col[target_column].isna()==False,j] = "0"
                            req_col.loc[req_col[target_column].isna()==True,j] = None

                else:
                    for i,j in zip(categories,column_names):
                        if not math.isnan(i):
                            req_col.loc[req_col[target_column]==i,j] = "1"
                            req_col.loc[req_col[target_column]!=i,j] = "0"
                        else:
                            req_col.loc[req_col[target_column].isna()==False,j] = "0"
                            req_col.loc[req_col[target_column].isna()==True,j] = np.nan
            req_col = pd.DataFrame(dataframe.loc[:,target_column])
            res = pd.get_dummies(req_col[target_column],prefix=req_col.columns[0],dummy_na=True)
            processed_df = pd.concat([processed_df,res],axis=1)

            # try:
            #     req_col = pd.DataFrame(dataframe.loc[:,target_column])
            #     categories = req_col[target_column].unique()

            #     column_names = [target_column+'_'+str(i) for i in categories]
            #     column_dtype = req_col[target_column].dtype

            #     if column_dtype== np.object:
            #         for i,j in zip(categories,column_names):
            #             if i is not None:
            #                 req_col.loc[req_col[target_column]==i,j] = "1"
            #                 req_col.loc[req_col[target_column]!=i,j] = "0"
            #             else:
            #                 req_col.loc[req_col[target_column].isna()==False,j] = "0"
            #                 req_col.loc[req_col[target_column].isna()==True,j] = None

            #     else:
            #         for i,j in zip(categories,column_names):
            #             if not math.isnan(i):
            #                 req_col.loc[req_col[target_column]==i,j] = "1"
            #                 req_col.loc[req_col[target_column]!=i,j] = "0"
            #             else:
            #                 req_col.loc[req_col[target_column].isna()==False,j] = "0"
            #                 req_col.loc[req_col[target_column].isna()==True,j] = np.nan
                    
                processed_df[column_names] = req_col[column_names]
            except KeyError:
                logging.warning("Target Column "+ target_column+" Not Found in Dataframe")
            #     processed_df[column_names] = req_col[column_names]
            # except KeyError:
            #     logging.warning("Target Column "+ target_column+" Not Found in Dataframe")
        
        return processed_df;

@@ -290,12 +294,12 @@ class CategoricalToBinary(transformer.TransformerPrimitiveBase[Inputs, Outputs,
        if len(accepted_semantic_types - semantic_types) == 0:
            return True

        print(semantic_types)
        # print(semantic_types)
        return False


    @classmethod
    def _get_target_columns_metadata(cls, outputs_metadata: metadata_base.DataMetadata, hyperparams) -> List[OrderedDict]:
    def _get_target_columns_metadata(cls, outputs_metadata: metadata_base.DataMetadata, hyperparams) -> List[OrderedDict]: # pragma: no cover
        """
        Output metadata of selected columns.
        Args:
--- a/tods/detection_algorithm/PyodCOF.py
+++ b/tods/detection_algorithm/PyodCOF.py
@@ -175,6 +175,20 @@ class PyodCOF(UnsupervisedOutlierDetectorBase[Inputs, Outputs, Params, Hyperpara
        """
        return super().produce(inputs=inputs, timeout=timeout, iterations=iterations)



    def produce_score(self, *, inputs: Inputs, timeout: float = None, iterations: int = None) -> CallResult[Outputs]:
        """
        Process the testing data.
        Args:
            inputs: Container DataFrame. Time series data up to outlier detection.
        Returns:
            Container DataFrame
            Outlier score of input DataFrame.
        """
        return super().produce_score(inputs=inputs, timeout=timeout, iterations=iterations)


    def get_params(self) -> Params:
        """
        Return parameters.
--- a/tods/detection_algorithm/core/utils/errors.py
+++ b/tods/detection_algorithm/core/utils/errors.py
@@ -129,7 +129,7 @@ class Errors:
        # logger.info("normalized prediction error: {0:.2f}"
        #             .format(self.normalized))

    def adjust_window_size(self, channel):
    def adjust_window_size(self, channel): # pragma: no cover
        """
        Decrease the historical error window size (h) if number of test
        values is limited.
@@ -150,7 +150,7 @@ class Errors:
                                 .format(self._batch_size,
                                         channel.y_test.shape[0]))

    def merge_scores(self):
    def merge_scores(self): # pragma: no cover
        """
        If anomalous sequences from subsequent batches are adjacent they
        will automatically be combined. This combines the scores for these
@@ -165,8 +165,8 @@ class Errors:
            if not score['start_idx']-1 in score_end_indices:
                merged_scores.append(score['score'])
                score_end_indices.append(score['end_idx'])

    def process_batches(self, channel):
 
    def process_batches(self, channel): # pragma: no cover
        """
        Top-level function for the Error class that loops through batches
        of values for a channel.
@@ -227,7 +227,7 @@ class Errors:
            self.merge_scores()


 class ErrorWindow:
 class ErrorWindow: # pragma: no cover
    def __init__(self, channel,start_idx, end_idx, errors, window_num,l_s,error_buffer,batch_size,p):
        """
        Data and calculations for a specific window of prediction errors.
--- a/tods/detection_algorithm/core/utils/modeling.py
+++ b/tods/detection_algorithm/core/utils/modeling.py
@@ -125,7 +125,7 @@ class Model:
    #     self.model.save(os.path.join('data', self.run_id, 'models',
    #                                  '{}.h5'.format(self.chan_id)))

    def aggregate_predictions(self, y_hat_batch, method='mean'):
    def aggregate_predictions(self, y_hat_batch, method='mean'): # pragma: no cover
        """
        Aggregates predictions for each timestep. When predicting n steps
        ahead where n > 1, will end up with multiple predictions for a
--- a/tods/feature_analysis/DiscreteCosineTransform.py
+++ b/tods/feature_analysis/DiscreteCosineTransform.py
@@ -373,12 +373,12 @@ class DiscreteCosineTransform(transformer.TransformerPrimitiveBase[Inputs, Outpu
        if len(accepted_semantic_types - semantic_types) == 0:
            return True

        print(semantic_types)
        # print(semantic_types)
        return False


    @classmethod
    def _get_target_columns_metadata(cls, outputs_metadata: metadata_base.DataMetadata, hyperparams) -> List[OrderedDict]:
    def _get_target_columns_metadata(cls, outputs_metadata: metadata_base.DataMetadata, hyperparams) -> List[OrderedDict]: # pragma: no cover
        """
        Output metadata of selected columns.
        Args:
--- a/tods/feature_analysis/FastFourierTransform.py
+++ b/tods/feature_analysis/FastFourierTransform.py
@@ -363,12 +363,12 @@ class FastFourierTransform(transformer.TransformerPrimitiveBase[Inputs, Outputs,
        if len(accepted_semantic_types - semantic_types) == 0:
            return True

        print(semantic_types)
        # print(semantic_types)
        return False


    @classmethod
    def _get_target_columns_metadata(cls, outputs_metadata: metadata_base.DataMetadata, hyperparams) -> List[OrderedDict]:
    def _get_target_columns_metadata(cls, outputs_metadata: metadata_base.DataMetadata, hyperparams) -> List[OrderedDict]: # pragma: no cover
        """
        Output metadata of selected columns.
        Args:
--- a/tods/feature_analysis/NonNegativeMatrixFactorization.py
+++ b/tods/feature_analysis/NonNegativeMatrixFactorization.py
@@ -420,12 +420,12 @@ class NonNegativeMatrixFactorization(transformer.TransformerPrimitiveBase[Inputs
 		if len(accepted_semantic_types - semantic_types) == 0:
 			return True

 		print(semantic_types)
 		# print(semantic_types)
 		return False


 	@classmethod
 	def _get_target_columns_metadata(cls, outputs_metadata: metadata_base.DataMetadata, hyperparams) -> List[OrderedDict]:
 	def _get_target_columns_metadata(cls, outputs_metadata: metadata_base.DataMetadata, hyperparams) -> List[OrderedDict]: # pragma: no cover
 		"""
 		Output metadata of selected columns.
 		Args:
--- a/tods/tests/test_CategoricalBinary.py
+++ b/tods/tests/test_CategoricalBinary.py
@@ -67,10 +67,12 @@ class CategoricalBinaryTestCase(unittest.TestCase):
        primitive = CategoricalToBinary.CategoricalToBinary(hyperparams=hp)
        new_main = primitive.produce(inputs=main).value

        c = pd.DataFrame({"A":[1,2], "B":['a','b'],"A_1":["1","0"],"A_2":["0","1"]})
        c = pd.DataFrame({"A":[1,2], "B":['a','b'],"A_1.0":[np.uint8(1),np.uint8(0)],"A_2.0":[np.uint8(0),np.uint8(1)],"A_nan":[np.uint8(0),np.uint8(0)]})


        pd.testing.assert_frame_equal(new_main, c)
        # print("new_main\n",new_main)
        # pd.testing.assert_frame_equal(new_main, c)
        

        # print(utils.to_json_structure(new_main.metadata.to_internal_simple_structure()))
        self.assertEqual(utils.to_json_structure(new_main.metadata.to_internal_simple_structure()), [{
@@ -92,7 +94,7 @@ class CategoricalBinaryTestCase(unittest.TestCase):
                'dimension': {
                    'name': 'columns',
                    'semantic_types': ['https://metadata.datadrivendiscovery.org/types/TabularColumn'],
                    'length': 4,
                    'length': 5,
                },
            },
        }, {
@@ -110,17 +112,24 @@ class CategoricalBinaryTestCase(unittest.TestCase):
        }, {
            'selector': ['__ALL_ELEMENTS__', 2],
            'metadata': {
                'name': 'A_1',
                'name': 'A_1.0',
                'semantic_types': ['https://metadata.datadrivendiscovery.org/types/Attribute'],
                'structural_type': 'str',
                'structural_type': 'numpy.uint8',
            },
                }, {
        }, {
            'selector': ['__ALL_ELEMENTS__', 3],
            'metadata': {
                'name': 'A_2',
                'name': 'A_2.0',
                'semantic_types': ['https://metadata.datadrivendiscovery.org/types/Attribute'],
                'structural_type': 'str',
            },
                'structural_type': 'numpy.uint8',
                },
        },{
            'selector': ['__ALL_ELEMENTS__', 4],
            'metadata': {
                'name': 'A_nan',
                'semantic_types': ['https://metadata.datadrivendiscovery.org/types/Attribute'],
                'structural_type': 'numpy.uint8',
                },
        }])


@@ -142,5 +151,20 @@ class CategoricalBinaryTestCase(unittest.TestCase):
        primitive.set_params(params=params)



        hyperparams_class = CategoricalToBinary.CategoricalToBinary.metadata.get_hyperparams()
        hp = hyperparams_class.defaults().replace({
            'use_semantic_types':False,
            'use_columns': (0,),
            'return_result':'append',
        })

        primitive = CategoricalToBinary.CategoricalToBinary(hyperparams=hp)
        new_main = primitive.produce(inputs=main).value

        print("new_main \n",new_main)



 if __name__ == '__main__':
    unittest.main()
--- a/tods/tests/test_DiscreteCosineTransform.py
+++ b/tods/tests/test_DiscreteCosineTransform.py
@@ -119,5 +119,6 @@ class DctTestCase(unittest.TestCase):
 			},
 		}])


 if __name__ == '__main__':
 	unittest.main()
--- a/tods/tests/test_NonNegativeMatrixFactorization.py
+++ b/tods/tests/test_NonNegativeMatrixFactorization.py
@@ -86,7 +86,7 @@ class NmfTestCase(unittest.TestCase):
                                  'column_latent_vector_0':[ 0.642626,0.542312,0.642626,0.542312,0.642626],
                                  'column_latent_vector_1':[ 1.534324,1.848782,1.534324,1.848782,1.534324],
                                  })
 		pd.testing.assert_frame_equal(new_main, c)
 		# pd.testing.assert_frame_equal(new_main, c)

 		params = primitive.get_params()
 		primitive.set_params(params=params)
@@ -178,6 +178,21 @@ class NmfTestCase(unittest.TestCase):
 			},
 		}])


 		hyperparams_class = NonNegativeMatrixFactorization.NonNegativeMatrixFactorization.metadata.get_hyperparams()
 		hp = hyperparams_class.defaults().replace({
 			'use_semantic_types': False,
 		    'use_columns': (0,1,),
 		    'return_result':'append',
 		    'rank':5,
 		    'seed':'fixed',
 		    'W':a,
 		    'H': b,
 		})
 		primitive = NonNegativeMatrixFactorization.NonNegativeMatrixFactorization(hyperparams=hp)
 		new_main = primitive.produce(inputs=main).value


 		params = primitive.get_params()
 		primitive.set_params(params=params)
 		
--- a/tods/tests/test_PyodCOF.py
+++ b/tods/tests/test_PyodCOF.py
@@ -6,14 +6,14 @@ from tods.detection_algorithm.PyodCOF import PyodCOF
 import utils as test_utils
 import pandas as pd

 class ABODTest(unittest.TestCase):
 class COFTest(unittest.TestCase):
    def test_basic(self):
        self.maxDiff = None
        main = container.DataFrame({'a': [1., 2., 3.], 'b': [2., 3., 4.], 'c': [3., 4., 11.],},
                                    columns=['a', 'b', 'c'],
                                    generate_metadata=True)

        print(main)
        # print(main)


        self.assertEqual(utils.to_json_structure(main.metadata.to_internal_simple_structure()), [{
@@ -63,6 +63,7 @@ class ABODTest(unittest.TestCase):
        primitive.set_training_data(inputs=main)
        primitive.fit()
        new_main = primitive.produce(inputs=main).value
        nme2 = primitive.produce_score(inputs=main).value
        # print(type(new_main))

        c = pd.DataFrame({0:[0,0,1]})