子采样相当普遍。
子样本时,许多统计属性都会得到很好的保留。如果你有1000000点,那么从10000只估计的平均值已经非常接近;并且可能在数据的可靠性范围内。
另一种方法是使用简单快速的方法进行聚类,例如k-means和大k,比如sqrt(N)。这将使用k个数据点以最小二乘目标逼近数据。 (你也应该使用 权重 之后,因为结果向量将反映不同数量的数据)。
最后但并非最不重要的是,许多减少技术 - 可能包括PCA - 可用于 换位 矩阵。然后减少实例数,而不是变量数。但PCA相当昂贵,在转置矩阵上,它会扩展O(n³)。所以我宁愿考虑直接使用截断的SVD。
但显然你的数据是时间序列。我建议寻找数据缩减,整合你在这里重要的知识。