圧縮ロードデータフォーマット

　ブートローダのＬＤＣＭコマンドの圧縮データ形式の説明です。

基本的な考え方

　基本的には、データ列を順に見て行って、以前と同じパターンが現れたらその部分をコピーする、というやり方です。たとえば、

番地

0

1

2

3

4

5

6

7

8

9

10

11

12

13

データ

Ａ

Ｂ

Ｃ

Ｄ

Ｅ

Ｆ

Ｇ

Ａ

Ｂ

Ｃ

Ｄ

Ｅ

Ｈ

Ｉ

というデータ列があったとします。０番地から５バイトと７番地から５バイトには同じ「ＡＢＣＤＥ」というパターンがあります。この場合、７番地から５バイトはバカ正直に記述せずに、「７バイト戻った番地から５バイトコピーしなさい」と書いても復元可能です。従ってこのデータ列は

	ＡＢＣＤＥＦＧ[copy-7,5]ＨＩ

のように表現できます。また、

番地

0

1

2

3

4

5

6

7

8

9

10

11

12

データ

Ａ

Ｂ

Ｃ

Ｄ

Ｅ

Ｄ

Ｅ

Ｄ

Ｅ

Ｄ

Ｅ

Ｆ

Ｇ

のようなデータ列の場合、５番地からのデータは、２バイト戻って６バイトコピーすれば、いわゆる「自己増殖コピー」効果により、パターン「ＤＥ」がくり返し複写されます。このデータ列は

	ＡＢＣＤＥ[copy-2,6]ＦＧ

と表現できます。この [copy-x,y] というのをうまい具合に短いコードで表現すればデータを圧縮することができます。

実際のデータ形式

　データは、基本的にバイナリデータをそのまま書いていくのですが、データ中に以前のデータからコピー可能なパターンがあった場合、以下のようなコードに変換されます。

ショートコピーコード

0E7H xx

ロングコピーコード

0F7H yy zz

　ショートコピーコードは２バイトです。まず１６進数の 0E7H があり、そのあとの１バイト xx の値は

	（コピーするバイト数－１）＊３２＋戻るバイト数－１

です。この形式では最大３２バイト戻ることができ、最大８バイトコピー可能です。

　ロングコピーコードは３バイトです。まず１６進数の 0F7H があり、そのあとの２バイト値 yy zz の値は、

	（コピーするバイト数－１）＊１０２４＋戻るバイト数－１

です。この形式では最大１０２４バイト戻ることができ、最大６４バイトコピーできます。なお、この yy zz のバイト順は「モトローラ方式」で、yy が上位です。

　ところで、データ列中に始めから 0E7H とか 0F7H とかいったデータが含まれる場合も当然あり得ます。それをコピーコードと誤認してはいけないので、データ列中に 0E7H、0F7H が含まれている場合、

	0E7H → 0E7H 000H
	0F7H → 0F7H 000H

と変換します。圧縮データの展開時には、0E7H または 0F7H に続く１バイトが０だった場合、それはコピーコードではなく 0E7H、0F7H そのものを表すと解釈します。

　データ中に 0E7H、0F7H が多く含まれている場合、かえってデータが大きくなる可能性もあるわけですが、一応出現頻度の低い値、ということでこの値を選びました。実際今まで私が作ったＨ８用プログラムで調べた限りでは出現頻度はかなり低いです。

　Ｈ８の命令コードとしてみると 0E7H は AND.B #xx,R7H、0F7H は MOV.B #xx,R7H です。Ｒ７はスタックポインタですから、普通のプログラムではこんな命令を実行することはまずありえません。純粋なデータとしてみた場合にはなんともいえませんが、経験的にあまり出てこないデータだと思います。

コンプレッサ「H8COMP.COM」

　圧縮を行うには H8COMP.COM というプログラムをＭＳＸ－ＤＯＳ上で実行します。H8COMP.COM は以下のような形式のファイルを出力します。なお、H8COMP.COM が出力するファイルの拡張子は .H8C です。

オフセット

意味

内容

0～3

ファイルＩＤ

文字列"H8C\0"

4～7

展開後のデータのサイズ

４バイト整数（下位バイトが先の、インテル方式）

8以降

データ本体

圧縮されたデータ本体

　実際にＨ８側にデータを送る場合、ファイルの先頭８バイトは送りません。オフセット４～７の展開後のデータサイズがインテル方式なのも、それがＭＳＸ側で判断すべき情報だからです。

　それにしても、H8COMP はかなり時間がかかります。(^^;;; だれかオールマシン語版つくりませんか？

番地	0	1	2	3	4	5	6	7	8	9	10	11	12	13
データ	Ａ	Ｂ	Ｃ	Ｄ	Ｅ	Ｆ	Ｇ	Ａ	Ｂ	Ｃ	Ｄ	Ｅ	Ｈ	Ｉ

ショートコピーコード	0E7H xx
ロングコピーコード	0F7H yy zz

オフセット	意味	内容
0～3	ファイルＩＤ	文字列"H8C\0"
4～7	展開後のデータのサイズ	４バイト整数（下位バイトが先の、インテル方式）
8以降	データ本体	圧縮されたデータ本体