<?xml version="1.0" encoding="UTF-8"?>
<rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>
<channel>
	<title>超群.com的博客 &#187; data warehouse</title>
	<atom:link href="http://www.fuchaoqun.com/tag/data-warehouse/feed/" rel="self" type="application/rss+xml" />
	<link>http://www.fuchaoqun.com</link>
	<description></description>
	<lastBuildDate>Thu, 08 Sep 2011 15:08:19 +0000</lastBuildDate>
	<language>en</language>
	<sy:updatePeriod>hourly</sy:updatePeriod>
	<sy:updateFrequency>1</sy:updateFrequency>
	<generator>http://wordpress.org/?v=3.2.1</generator>
		<item>
		<title>基于Infobright的MySQL数据仓库方案测试</title>
		<link>http://www.fuchaoqun.com/2009/02/infobright-brighthouse-mysql-data-warehouse/?utm_source=rss&#038;utm_medium=rss&#038;utm_campaign=infobright-brighthouse-mysql-data-warehouse</link>
		<comments>http://www.fuchaoqun.com/2009/02/infobright-brighthouse-mysql-data-warehouse/#comments</comments>
		<pubDate>Tue, 10 Feb 2009 07:36:10 +0000</pubDate>
		<dc:creator>超群.com</dc:creator>
				<category><![CDATA[MySQL]]></category>
		<category><![CDATA[brighthouse]]></category>
		<category><![CDATA[data warehouse]]></category>
		<category><![CDATA[infobright]]></category>
		<guid isPermaLink="false">http://chaoqun.17348.com/?p=155</guid>
		<description><![CDATA[数据仓库之父Bill Inmon在1991年出版的“Building the Data Warehouse”一书中所提出的定义被广泛接受——数据仓库（Data Warehouse）是一个面向主题的（Subject Oriented）、集成的（Integrated）、相对稳定的（Non-Volatile）、反映历史变化（Time Variant）的数据集合，用于支持管理决策(Decision Making Support)。 上面这段是抄的，简单的讲数据仓库是一个面向主题的、集成的、不可更新的、随时间不断变化的数据集合，它用于支持企业或组织的决策分析处理，这一句也是抄的，更直白的举例就是公司的历史交易数据集合，网站的历史访问数据集合，这一句是原创的。 Infobright是开源的MySQL数据仓库解决方案，引入了列存储方案，高强度的数据压缩，优化的统计计算(类似sum/avg/group by之类)，下面是Infobright的架构图： 安装篇： Infobright目前还不支持windows系列操作系统，不过你可以装在Linux虚拟机上，或者从官方直接下载做好的VMWARE虚拟机，这里的测试环境是CentOS 5.2 32bit操作系统。Infobright也不支持以插件的形式集成到已有的MySQL系统中去，官方的说法是对MySQL做了很多修改，不支持以插件的形式使用。 详细的安装参照http://www.infobright.org/wiki/Install_Guide/，需要注意的是如果你的系统中已经有MySQL(默认端口3306)，你需要重新设定一下安装参数，比如像我的： ./install-infobright.sh &#8211;datadir=/data/infobright/data &#8211;cachedir=/data/infobright/cache &#8211;port=9527 &#8211;config=/etc/my-ib.cnf &#8211;socket=/tmp/mysql-ib.sock &#8211;user=mysql &#8211;group=mysql 配置文件包括MySQL配置文件（/etc/my-ib.cnf）和Infobright配置文件（在安装时候指定的数据目录内，比如/data/infobright/data/brighthouse.ini），如果需要支持MySQL原生的SQL查询，需要修改brighthouse.ini设定 AllowMySQLQueryPath = 1 这样不至于有些SQL语句不能执行，安装完成，启动服务： /etc/init.d/mysqld-ib start 通过命令行：mysql-ib -uroot直接连接，默认密码为空，修改密码： /usr/local/infobright/bin/mysqladmin  -u root -p password NEWPASSWORD 测试篇： 测试数据是一个1.5GB大的文本数据，数据格式类似： 用户ID  内容ID  用户打分 765331  3868    5 716091  3868    3 1663216 3868    3 [...]]]></description>
			<content:encoded><![CDATA[<p>数据仓库之父Bill Inmon在1991年出版的“Building the Data Warehouse”一书中所提出的定义被广泛接受——数据仓库（Data Warehouse）是一个面向主题的（Subject Oriented）、集成的（Integrated）、相对稳定的（Non-Volatile）、反映历史变化（Time Variant）的数据集合，用于支持管理决策(Decision Making Support)。</p>
<p>上面这段是<a href="http://baike.baidu.com/view/19711.htm" target="_blank">抄的</a>，简单的讲数据仓库是一个面向主题的、集成的、不可更新的、随时间不断变化的数据集合，它用于支持企业或组织的决策分析处理，这一句也是抄的，更直白的举例就是公司的历史交易数据集合，网站的历史访问数据集合，这一句是原创的。</p>
<p>Infobright是开源的MySQL数据仓库解决方案，引入了<a href="http://en.wikipedia.org/wiki/Column-oriented_DBMS" target="_blank">列存储</a>方案，高强度的数据压缩，优化的统计计算(类似sum/avg/group by之类)，下面是Infobright的架构图：</p>
<p><img title="Infobright架构图" src="http://www.mysql.com/common/images/products/infobright_architecture.png" alt="" width="500" height="373" /></p>
<p><strong>安装篇：</strong></p>
<p>Infobright目前还不支持windows系列操作系统，不过你可以装在Linux虚拟机上，或者从官方直接下载做好的<a href="http://www.infobright.org/images/uploads/VM/ice32-3.1.zip" target="_blank">VMWARE虚拟机</a>，这里的测试环境是CentOS 5.2 32bit操作系统。Infobright也不支持以插件的形式集成到已有的MySQL系统中去，官方的说法是对MySQL做了很多修改，不支持以插件的形式使用。</p>
<p>详细的安装参照<a href="http://www.infobright.org/wiki/Install_Guide/" target="_blank">http://www.infobright.org/wiki/Install_Guide/</a>，需要注意的是如果你的系统中已经有MySQL(默认端口3306)，你需要重新设定一下安装参数，比如像我的：</p>
<blockquote><p>./install-infobright.sh &#8211;datadir=/data/infobright/data &#8211;cachedir=/data/infobright/cache &#8211;port=<span style="color: #ff0000;">9527</span> &#8211;config=/etc/my-ib.cnf &#8211;socket=/tmp/mysql-ib.sock &#8211;user=mysql &#8211;group=mysql</p></blockquote>
<p>配置文件包括MySQL配置文件（/etc/my-ib.cnf）和Infobright配置文件（在安装时候指定的数据目录内，比如/data/infobright/data/brighthouse.ini），如果需要支持MySQL原生的SQL查询，需要修改brighthouse.ini设定</p>
<blockquote><p>AllowMySQLQueryPath = 1</p></blockquote>
<p>这样不至于有些SQL语句不能执行，安装完成，启动服务：</p>
<blockquote><p>/etc/init.d/mysqld-ib start</p></blockquote>
<p>通过命令行：mysql-ib -uroot直接连接，默认密码为空，修改密码：</p>
<blockquote><p>/usr/local/infobright/bin/mysqladmin  -u root -p password NEWPASSWORD</p></blockquote>
<p><strong>测试篇：</strong></p>
<p>测试数据是一个1.5GB大的文本数据，数据格式类似：</p>
<blockquote>
<pre>用户ID  内容ID  用户打分
765331  3868    5
716091  3868    3
1663216 3868    3
51971   3868    5</pre>
</blockquote>
<p>在测试数据库中新建两张表，一个为Infobright支持的brighthouse存储引擎，一个为MySQL原生的MyISAM存储引擎，其他内容一致：</p>
<blockquote><p>CREATE TABLE `t_ib` (<br />
`uid` mediumint(9) NOT NULL,<br />
`cid` smallint(6) NOT NULL,<br />
`rating` tinyint(4) NOT NULL<br />
) ENGINE=BRIGHTHOUSE;</p>
<p>CREATE TABLE `t_mis` (<br />
`uid` mediumint(9) NOT NULL,<br />
`cid` smallint(6) NOT NULL,<br />
`rating` tinyint(4) NOT NULL<br />
) ENGINE=MyISAM</p></blockquote>
<p>将数据load进表：</p>
<blockquote><p>load data infile &#8216;path/to/data.txt&#8217; into table table_name fields terminated by &#8220;\t&#8221;;</p></blockquote>
<p>我们比较一下文件大小：</p>
<blockquote>
<pre>数据类型      数据大小
data.txt      1.5GB
data.tar.gz   429MB
MyISAM表      671MB
Infobight表   280MB</pre>
</blockquote>
<p>超过5：1的压缩比，虽然没有传说中10:1，但数据的大小比tar.gz过还要小近一半，压缩能力可见一斑。</p>
<p>准备进行SQL的测试，不能在BRIGHTHOUSE存储引擎上建索引，因为根本就不需要建，我们在MyISAM引擎表上建立如下索引：</p>
<blockquote><p>create index id on t_mis(cid);</p></blockquote>
<p>执行下列SQL语句，查询内容ID大于9527的条目数（为了节省篇幅，略去结果集，只返回执行时间）：</p>
<blockquote>
<pre>mysql&gt; select count(*) from t_mis where cid &gt; 9527;
1 row in set (41.81 sec)
mysql&gt; select count(*) from t_ib where cid &gt; 9527;
1 row in set (13.66 sec)</pre>
</blockquote>
<p>Infobright花费的时间只有MyISAM的1/4左右，再测试一下找出被用户打分最多的10条内容：</p>
<blockquote>
<pre>mysql&gt; select cid from t_mis group by cid order by count(*) desc limit 10;
10 rows in set (1 min 21.30 sec)
mysql&gt; select cid from t_ib group by cid order by count(*) desc limit 10;
10 rows in set (39.02 sec)</pre>
</blockquote>
<p>Infobright大概只花费了MyISAM 1/3多一点的时间。再查询一下评价最好的10条内容：</p>
<blockquote>
<pre>mysql&gt; select cid from t_mis group by cid order by avg(rating) desc limit 10;
10 rows in set (6 min 16.15 sec)
mysql&gt; select cid from t_ib group by cid order by avg(rating) desc limit 10;
10 rows in set (1 min 1.25 sec)</pre>
</blockquote>
<p>不到1/6时间。</p>
<p><strong>后记：</strong></p>
<p>强悍的压缩比率，高效的SQL统计性能，Infobright的表现很是不错。对于网站开发者来说，建立一个Infobright数据仓库系统用来保存网站的历史访问元数据应该是一个不错的选择，尤其是需要<a href="http://en.wikipedia.org/wiki/OLAP" target="_blank">OLAP</a>或者更为灵活的统计功能的时候。</p>
]]></content:encoded>
			<wfw:commentRss>http://www.fuchaoqun.com/2009/02/infobright-brighthouse-mysql-data-warehouse/feed/</wfw:commentRss>
		<slash:comments>7</slash:comments>
		</item>
	</channel>
</rss>
<!-- WP Super Cache is installed but broken. The path to wp-cache-phase1.php in wp-content/advanced-cache.php must be fixed! -->
