更新 scada 数据清洗方法

2025-12-12 18:04:07 +08:00
parent eb330dda4c
commit 7426faab2c
5 changed files with 129 additions and 103 deletions
--- a/api_ex/Fdataclean.py
+++ b/api_ex/Fdataclean.py
@@ -117,14 +117,14 @@ def clean_flow_data_kf(input_csv_path: str, show_plot: bool = False) -> str:
    return os.path.abspath(output_path)


-def clean_flow_data_dict(data_dict: dict, show_plot: bool = False) -> dict:
+def clean_flow_data_df_kf(data: pd.DataFrame, show_plot: bool = False) -> dict:
    """
-    接收一个字典数据结构，其中键为列名，值为时间序列列表，使用一维 Kalman 滤波平滑并用预测值替换基于 IQR 检测出的异常点。
+    接收一个 DataFrame 数据结构，使用一维 Kalman 滤波平滑并用预测值替换基于 IQR 检测出的异常点。
    区分合理的0值（流量转换）和异常的0值（连续多个0或孤立0）。
    返回完整的清洗后的字典数据结构。
    """
-    # 将字典转换为 DataFrame
-    data = pd.DataFrame(data_dict)
+    # 使用传入的 DataFrame
+    data = data.copy()
    # 替换0值，填充NaN值
    data_filled = data.replace(0, np.nan)

@@ -247,7 +247,7 @@ def clean_flow_data_dict(data_dict: dict, show_plot: bool = False) -> dict:
        plt.show()

    # 返回完整的修复后字典
-    return cleaned_data.to_dict(orient="list")
+    return cleaned_data


 # # 测试
@@ -279,7 +279,7 @@ if __name__ == "__main__":
    print("原始数据长度:", len(data_dict[selected_columns[0]]))

    # 调用函数进行清洗
-    cleaned_dict = clean_flow_data_dict(data_dict, show_plot=True)
+    cleaned_dict = clean_flow_data_df_kf(data_dict, show_plot=True)
    # 将清洗后的字典写回 CSV
    out_csv = os.path.join(script_dir, f"{selected_columns[0]}_clean.csv")
    pd.DataFrame(cleaned_dict).to_csv(out_csv, index=False, encoding="utf-8-sig")