UTF-8 は、様々な言語を表示するために開発された Unicode を格納するための標準的な文字エンコード方式です。
Unicode と UTF-8 は1990年代以降に開発されたため、初期バージョンの ZIP形式(1980年代に誕生)は UTF-8 をサポートしていませんでした。 ただし、ZIP形式が標準のアーカイブ形式になり、Unicode をサポートする必要があったため、ZIPファイルの UTF-8 文字列を処理する方法がいくつか導入されました。
Bandizip はそのうちの2つをサポートしています。 1つはファイル名を UTF-8 に変換する方法で、もう1つは追加のヘッダーフィールドに追加の UTF-8 ファイル名を保存し、元のファイルを MBCS に保存する方法です。
Bandizip は、ファイル名を UTF-8 に変換して ZIPファイルに保存します。 これは APPNOTE で定義された標準のファイル名の保存方法ですが、一部のアーカイバは ZIPファイルを認識できないか、ZIPファイルを誤って処理してファイル名が壊れる場合があります。 APPNOTE
Bandizip は、追加の UTF-8 ファイル名を ZIP形式の追加ヘッダーフィールドに保存し、元のファイル名を MBCS に保存します。 このメソッドは、APPNOTE でも「Info-ZIP Unicode Path Extra Field」として定義されています。 UTF-8 ファイル名を保存するために追加のフィールドを使用するため、ファイルサイズは前のものよりも数十バイト大きくなります。 ただし、元のファイル名は MBCS に保存されるため、ファイルはより安全で互換性があります。
ほとんどのアーカイバ(7zip、Winrar、Winzipなど)はこの機能をサポートしているため、異なるシステム言語の OS でファイル名が破損するのを防ぎます。
次の図は、韓国語の OS で圧縮された ZIPファイルを日本語の OS に送信するときに、この機能を使用する場合と使用しない場合の違いを示しています。
TAR および TGZ 形式は、主に Unix(UTF-8ファイル名を使用)で使用されるアーカイブ形式です。 この機能により、Unix でファイル名の問題なしに TAR/TGZ ファイルを抽出できます。
注:Windows 用の一部のアプリケーションは、TAR/TGZ 形式の UTF-8 コードページを正しく認識できない場合があります。