Python转换office word文件为HTML

Thursday, March 12th, 2009

这里测试的环境是:windows xp,office 2007,python 2.5.2,pywin32 build 213,原理是利用win32com接口直接调用office API,好处是简单、兼容性好,只要office能处理的,python都可以处理,处理出来的结果和office word里面“另存为”一致。 #!/usr/bin/env python #coding=utf-8 from win32com import client as wc word = wc.Dispatch('Word.Application') doc = word.Documents.Open('d:/labs/math.doc') doc.SaveAs('d:/labs/math.html', 8) doc.Close() word.Quit() 关键的就是doc.SaveAs('d:/labs/math.html', 8)这一行,网上很多文章写成:doc.SaveAs('d:/labs/math.html', win32com.client.constants.wdFormatHTML),直接报错: AttributeError: class Constants has no attribute 'wdFormatHTML' 当然你也可以用上面的代码将word文件转换成任意格式文件(只要office 2007支持,比如将word文件转换成PDF文件,把8改成17即可),下面是office 2007支持的全部文件格式对应表: wdFormatDocument = ...