欢迎光临
我们一直在努力

程序员使用r2PMML将10Mb Rdata文件转换为PMML会产生350Mb PMML文件。如何缩小尺寸? – python

程序员面试经验

我有一个RData文件,它是一个随机森林模型,大小为10Mb。我想将其转换为PMML,但是当使用R2PMML库时,这将创建一个350Mb的PMML文件,该文件远远不能使用。知道如何缩小尺寸吗?然后,我希望能够在python生产环境中使用PMML,因此需要将文件大大减小。

参考方案

通过指定compact = TRUE转换选项,可以重新排列决策树数据结构:

library("r2pmml") library("randomForest") iris.rf = randomForest(Species ~ ., data = iris) r2pmml(iris.rf, "RandomForestIris-compact.pmml", compact = TRUE) 

但是,本地文件系统中PMML文件的大小并不是很好的指示,它在运行时将消耗多少内存。正确加载后,您的350 MB文件可能适合50-75 MB的RAM(例如,文件100 MB为空格字符)。

Python sqlite3数据库已锁定 – python

我在Windows上使用Python 3和sqlite3。我正在开发一个使用数据库存储联系人的小型应用程序。我注意到,如果应用程序被强制关闭(通过错误或通过任务管理器结束),则会收到sqlite3错误(sqlite3.OperationalError:数据库已锁定)。我想这是因为在应用程序关闭之前,我没有正确关闭数据库连接。我已经试过了: connectio…

python-docx应该在空单元格已满时返回空单元格 – python

我试图遍历文档中的所有表并从中提取文本。作为中间步骤,我只是尝试将文本打印到控制台。我在类似的帖子中已经看过scanny提供的其他代码,但是由于某种原因,它并没有提供我正在解析的文档的预期输出可以在https://www.ontario.ca/laws/regulation/140300中找到该文档from docx import Document from…

Python:集群作业管理 – python

我在具有两个阶段的计算群集(Slurm)上运行python脚本,它们是顺序的。我编写了两个python脚本,一个用于阶段1,另一个用于阶段2。每天早上,我检查所有第1阶段的工作是否都以视觉方式完成。只有这样,我才开始第二阶段。通过在单个python脚本中组合所有阶段和作业管理,是否有一种更优雅/自动化的方法?我如何知道工作是否完成?工作流程类似于以下内容:w…

Python-Excel导出 – python

我有以下代码:import pandas as pd import requests from bs4 import BeautifulSoup res = requests.get("https://www.bankier.pl/gielda/notowania/akcje") soup = BeautifulSoup(res.cont…

Python:传递记录器是个好主意吗? – python

我的Web服务器的API日志如下:started started succeeded failed 那是同时收到的两个请求。很难说哪一个成功或失败。为了彼此分离请求,我为每个请求创建了一个随机数,并将其用作记录器的名称logger = logging.getLogger(random_number) 日志变成[111] started [222] start…

赞(0)
未经允许不得转载: 京大飞辅助网程序员面试-区块链javago面经 » 程序员使用r2PMML将10Mb Rdata文件转换为PMML会产生350Mb PMML文件。如何缩小尺寸? – python

相关推荐

评论 抢沙发

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址