一、最优离散化(转换-最优离散化)
“最优离散化”过程通过将每个变量的值分布到块中离散化一个或多个尺度变量(因此称为离散化输入变量)。块的构成根据“监督”离散化过程的分类向导变量得以最优化。然后,可以使用块而非原始数据值进行进一步的分析。
示例。减少变量具有的不同值的数量具有多种用途,包括:◎其他过程的数据要求。离散化变量可作为分类变量用于需要分类变量的过程。例如,“交叉表”过程要求所有变量均为分类变量。◎数据隐私。报告离散化值而不是实际值可帮助保护数据源的隐私。“最优离散化”过程可指导块的选择。◎速度性能。有些过程在处理较少数量的不同值时更加有效。例如,使用离散化变量时“多项Logistic 回归”的速度会提高。◎揭示数据的完全分离或准完全分离。
最优离散化与可视离散化。“可视离散化”对话框提供了多种不使用向导变量创建块的自动方法。这些“未受监督”的规则对于生成描述统计(例如频率表)十分有用,但如果最终目标是生成预测模型,则“最优离散化”更好。
输出。该过程生成块的分割点以及每个离散化输入变量的描述统计的表。此外,您可以将新变量保存到包含离散化输入变量的离散化值的活动数据集中,并将离散化规则作为命令语法保存以便用于离散化新数据。
数据。此过程需要离散化输入变量是数值型刻度变量。向导变量应是分类变量,可以是字符串或数值。
二、选项(转换-最优离散化-选项)
1、预处理。“预离散化”具有许多不同值的离散化输入变量可缩短处理时间,而不会使最终块的质量发生大幅
示例。减少变量具有的不同值的数量具有多种用途,包括:◎其他过程的数据要求。离散化变量可作为分类变量用于需要分类变量的过程。例如,“交叉表”过程要求所有变量均为分类变量。◎数据隐私。报告离散化值而不是实际值可帮助保护数据源的隐私。“最优离散化”过程可指导块的选择。◎速度性能。有些过程在处理较少数量的不同值时更加有效。例如,使用离散化变量时“多项Logistic 回归”的速度会提高。◎揭示数据的完全分离或准完全分离。
最优离散化与可视离散化。“可视离散化”对话框提供了多种不使用向导变量创建块的自动方法。这些“未受监督”的规则对于生成描述统计(例如频率表)十分有用,但如果最终目标是生成预测模型,则“最优离散化”更好。
输出。该过程生成块的分割点以及每个离散化输入变量的描述统计的表。此外,您可以将新变量保存到包含离散化输入变量的离散化值的活动数据集中,并将离散化规则作为命令语法保存以便用于离散化新数据。
数据。此过程需要离散化输入变量是数值型刻度变量。向导变量应是分类变量,可以是字符串或数值。
二、选项(转换-最优离散化-选项)
1、预处理。“预离散化”具有许多不同值的离散化输入变量可缩短处理时间,而不会使最终块的质量发生大幅
