Officeドキュメントはどこまでスクリプトで自動編集できるのか? (2) ~関数のプロット~

技研のまつけんです。

前回に引き続き、Officeドキュメントを自動編集したり自動生成したりしたいと思います。今回はPowerPoint文書に関数を「曲線」でプロットしてみます。
例えば、4周期分の正弦波をプロットすると以下のようになります:

こちらは、256の点からなる「曲線」オブジェクトなので、右クリックして「頂点の編集」を選ぶと編集することが出来ます:

ExcelでプロットしたグラフをPowerPointに張り付けることも出来ますが、模式図を書きたいときには、枠や軸などを消す必要があり、バウンディングボックスも曲線に対して大きめになってしまったりと、少し不便です。また、Excelでプロットするには、関数を一旦CSVなどに保存するなどの手間も掛かります。その点、曲線だけを直接pptxファイルに吐き出すことが出来れば便利と思い、作成しました。

下調べ

まずは、pptxファイルで「曲線」オブジェクトがどのように表現されているのか調べます。「頂点の編集」をすると頂点と一緒に腕のようなものが表示されるので、どうやらベジエ曲線のようです。

4つの点からなる適当な「曲線」を作成し、そのpptxファイルを前回の記事で紹介したunpack_pptx.shで展開してみます。「曲線」は「フリーフォーム」という名前で保存されているようです:

数値が羅列されていますが、最初のx、y、cx、cyはオブジェクトのバウンディングボックスのようです。次のw、hは、cx、cyと一致しています。そのあとの、moveToとcubicBezToがベジエ曲線のpathを表現していると推測されます。これはPostScriptのベジエ曲線の表現

によく似ています (なお、PDFではmovetoはm、curvetoはcで表します)。また、moveToとcubicBezToの中で使う座標は、バウンディングボックス内の相対座標のようです。

PostScriptでは、この後ろに

のように新たなcurvetoを追加すれば曲線を延長できますが、pptxファイルについても、テキストエディタで <a:cubicBezTo></a:cubicBezTo> を追加してみたところ、同じように延長できることがわかりました。

コーディングの方針

前回はbashスクリプトでしたが、今回はPythonで作成したいと思います。NumPyを使えば、sin、cosなどが手軽に利用できますし、最終的にPythonで行った実験の結果をPowerPointで発表するという連携が出来ると便利だからです。

途中に任意の数字などを入れた長いXMLを生成しなければなりません。また、途中に多数のダブルクオートも含まれますし、スペースや改行が挟まるとPowerPointで開くときにエラーになることもあります。

など、色々な書き方を検討した結果、以下のような方針で記述することにしました。

まず、

のように座標などの数値を入れるべき部分を ***変数名*** に置き換えた文字列を作ります。そして、それぞれの値をdictで保存しておき、置換します:

このようにすれば、Pythonソースコード上で、インデントや改行を保ったまま編集できますし、置換する直前に print(s) することで、どこにどの変数が入るのか確認できます。また、複数回の置換を行うことでテキストを階層化することも可能です。

作成したPythonコード

以下の通りです (一部、省略しています):

省略されている部分は、「適当な曲線を保存したpptx」からそのまま持ってきたものです。先程、言及した「テキストの階層化」は ***PATH*** の部分です。 for _ in range(pts - 1) のループ内で、

のような文字列 (実際にはスペースや改行は無し) を生成しておき、dicに 'PATH': path を登録することで置換します。その後、X0~X765、Y0~Y765が for i, y in enumerate(ys) のループで登録された座標で置換されます。

周期の数は、角周波数omegaとxの範囲xlimで指定します。上記の組み合わせでは、「4ヘルツの波を1秒間だけプロットする」という内容の設定になっているので4周期だけプロットされます。今回はx∈[0, 1]でプロットしたかったので、linspaceを使ってのリストxsを生成していますが、x∈[0, 1)にしたい場合は、np.arangeを使うか、 xs = np.array(range(pts)) / pts とします (個人的にはlinspaceとarangeの引数の順序を忘れがちなので後者を使います)。

コメントアウトされいている部分を有効にすると、媒介変数tによる渦巻のプロットになります (sinとcosでハートマークを描く式なども知られていますので、試してみては如何でしょうか?)。

改良すべき点

少なくとも2点あります。

1つ目は、ベジエ曲線を使っているのに、連続する3つの点 (Adobe Illustrator用語で言うところの各アンカーポイントの両側の制御点) に同じ座標を指定しているので、点と点の間が直線になってしまっていることです。これについては、点の密度を細かくすることで、直線であることを見えにくくすれば解決できます。解決策としては、各点をスプライン曲線で接続しているものとして、それをベジエ曲線に変換するという方法が考えられます。

2つ目は、tanのように無限大に発散してしまう関数を複数周期プロットする場合に備えて、ylimを指定できるようにしていますが、ylimの範囲外の値になる部分が水平な直線になってしまう点です。これについては、テキストエディタでの実験では

のように記述すれば、途切れた2本の曲線が描けることが確認できています。ただし、 <a:pathLst></a:pathLst> の中に <a:path></a:path> が入る構造になっているので、 <a:path></a:path> を追加するのが正しいのかも知れません。

おまけ

前回の記事で紹介したpack_pptx.shを少し改良しました:

find ~ do ~ doneを追加することで、整形済みのXMLファイルを元に戻してからzip圧縮するようにしました。これにより、見やすい形で編集した結果をそのままpptxファイルに戻すことが出来ます。

おまけ2

少し調べてみたところ、.NET Frameworkを利用すると、クリップボードに直接、Windows Meta形式で、ベジエ曲線を書き込むことも出来そうでした。C++やC#で実験した結果をPowerPointに貼りつけたい場合は、その方が相性が良いかも知れません。

参考文献