miniwiki

<br />
<b>Warning</b>:  Undefined variable $type in <b>/home/users/1/sub.jp-asate/web/wiki/extensions/HeadScript/HeadScript.php</b> on line <b>3</b><br />
<br />
<b>Warning</b>:  "continue" targeting switch is equivalent to "break". Did you mean to use "continue 2"? in <b>/home/users/1/sub.jp-asate/web/wiki/includes/json/FormatJson.php</b> on line <b>297</b><br />
<br />
<b>Warning</b>:  Trying to access array offset on value of type bool in <b>/home/users/1/sub.jp-asate/web/wiki/includes/Setup.php</b> on line <b>660</b><br />
<br />
<b>Warning</b>:  session_name(): Session name cannot be changed after headers have already been sent in <b>/home/users/1/sub.jp-asate/web/wiki/includes/Setup.php</b> on line <b>834</b><br />
<br />
<b>Warning</b>:  ini_set(): Session ini settings cannot be changed after headers have already been sent in <b>/home/users/1/sub.jp-asate/web/wiki/includes/session/PHPSessionHandler.php</b> on line <b>126</b><br />
<br />
<b>Warning</b>:  ini_set(): Session ini settings cannot be changed after headers have already been sent in <b>/home/users/1/sub.jp-asate/web/wiki/includes/session/PHPSessionHandler.php</b> on line <b>127</b><br />
<br />
<b>Warning</b>:  session_cache_limiter(): Session cache limiter cannot be changed after headers have already been sent in <b>/home/users/1/sub.jp-asate/web/wiki/includes/session/PHPSessionHandler.php</b> on line <b>133</b><br />
<br />
<b>Warning</b>:  session_set_save_handler(): Session save handler cannot be changed after headers have already been sent in <b>/home/users/1/sub.jp-asate/web/wiki/includes/session/PHPSessionHandler.php</b> on line <b>140</b><br />
<br />
<b>Warning</b>:  "continue" targeting switch is equivalent to "break". Did you mean to use "continue 2"? in <b>/home/users/1/sub.jp-asate/web/wiki/languages/LanguageConverter.php</b> on line <b>773</b><br />
<br />
<b>Warning</b>:  Cannot modify header information - headers already sent by (output started at /home/users/1/sub.jp-asate/web/wiki/extensions/HeadScript/HeadScript.php:3) in <b>/home/users/1/sub.jp-asate/web/wiki/includes/Feed.php</b> on line <b>294</b><br />
<br />
<b>Warning</b>:  Cannot modify header information - headers already sent by (output started at /home/users/1/sub.jp-asate/web/wiki/extensions/HeadScript/HeadScript.php:3) in <b>/home/users/1/sub.jp-asate/web/wiki/includes/Feed.php</b> on line <b>300</b><br />
<br />
<b>Warning</b>:  Cannot modify header information - headers already sent by (output started at /home/users/1/sub.jp-asate/web/wiki/extensions/HeadScript/HeadScript.php:3) in <b>/home/users/1/sub.jp-asate/web/wiki/includes/WebResponse.php</b> on line <b>46</b><br />
<br />
<b>Warning</b>:  Cannot modify header information - headers already sent by (output started at /home/users/1/sub.jp-asate/web/wiki/extensions/HeadScript/HeadScript.php:3) in <b>/home/users/1/sub.jp-asate/web/wiki/includes/WebResponse.php</b> on line <b>46</b><br />
<br />
<b>Warning</b>:  Cannot modify header information - headers already sent by (output started at /home/users/1/sub.jp-asate/web/wiki/extensions/HeadScript/HeadScript.php:3) in <b>/home/users/1/sub.jp-asate/web/wiki/includes/WebResponse.php</b> on line <b>46</b><br />
<?xml version="1.0"?>
<feed xmlns="http://www.w3.org/2005/Atom" xml:lang="ja">
	<id>http:///mymemo.xyz/wiki/api.php?action=feedcontributions&amp;user=111.239.37.196&amp;feedformat=atom</id>
	<title>miniwiki - 利用者の投稿記録 [ja]</title>
	<link rel="self" type="application/atom+xml" href="http:///mymemo.xyz/wiki/api.php?action=feedcontributions&amp;user=111.239.37.196&amp;feedformat=atom"/>
	<link rel="alternate" type="text/html" href=""/>
	<updated>2024-04-19T05:15:50Z</updated>
	<subtitle>利用者の投稿記録</subtitle>
	<generator>MediaWiki 1.31.0</generator>
	<entry>
		<id></id>
		<title>UTF-8</title>
		<link rel="alternate" type="text/html" href=""/>
		<updated>2019-03-11T18:46:12Z</updated>

		<summary type="html">&lt;p&gt;111.239.37.196: &lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;{{複数の問題&lt;br /&gt;
| 精度 = 2013年9月&lt;br /&gt;
| 正確性 = 2013年9月&lt;br /&gt;
}}&lt;br /&gt;
{{Table Unicode}}&lt;br /&gt;
&amp;#039;&amp;#039;&amp;#039;UTF-8&amp;#039;&amp;#039;&amp;#039;（ユーティーエフはち、ユーティーエフエイト）は[[ISO/IEC 10646]] (UCS) と[[Unicode]]で使える8ビット符号単位の[[文字符号化方式|文字符号化形式及び文字符号化スキーム]]。&lt;br /&gt;
&lt;br /&gt;
正式名称は、ISO/IEC 10646では “UCS Transformation Format 8”、Unicodeでは “Unicode Transformation Format-8” という。両者はISO/IEC 10646とUnicodeのコード重複範囲で互換性がある。[[Request for Comments|RFC]]にも仕様がある&amp;lt;ref&amp;gt;[http://tools.ietf.org/html/rfc3629 RFC 3629] UTF-8, a transformation format of ISO 10646&amp;lt;/ref&amp;gt;。&lt;br /&gt;
&lt;br /&gt;
2バイト目以降に「/」などの[[ASCII]]文字が現れないように工夫されていることから、&amp;#039;&amp;#039;&amp;#039;UTF-FSS&amp;#039;&amp;#039;&amp;#039; (File System Safe) ともいわれる。旧名称はUTF-2。&lt;br /&gt;
&lt;br /&gt;
UTF-8は、データ交換方式・ファイル形式として一般的に使われる傾向にある。&lt;br /&gt;
&amp;lt;!--&lt;br /&gt;
データ交換形式やファイル形式に最も採用されている文字符号化方式である。&lt;br /&gt;
↑これが言いたいことなんだろうけど，出典なし。&lt;br /&gt;
--&amp;gt;&lt;br /&gt;
&lt;br /&gt;
当初は、[[ベル研究所]]において[[Plan 9 from Bell Labs|Plan 9]]で用いるエンコードとして、[[ロブ・パイク]]による設計指針のもと、[[ケン・トンプソン]]によって考案された&amp;lt;ref&amp;gt;[http://tools.ietf.org/html/rfc3629#page-3 RFC 3629 Page-3]&amp;lt;/ref&amp;gt;&amp;lt;ref&amp;gt;[http://www.cl.cam.ac.uk/~mgk25/ucs/utf-8-history.txt Rob Pike&amp;#039;s UTF-8 history]&amp;lt;/ref&amp;gt;。&lt;br /&gt;
&lt;br /&gt;
== エンコード体系 ==&lt;br /&gt;
[[ASCII]]文字と互換性を持たせるために、ASCIIと同じ部分は1バイト、その他の部分を2-6バイトで符号化する。4バイトのシーケンスでは21bit (0x1FFFFF) まで表現することができるが、Unicodeの範囲外となる17面以降を表すもの（U+10FFFFより大きなもの）は受け付けない。また5-6バイトの表現は、ISO/IEC 10646による定義&amp;lt;ref&amp;gt;[http://std.dkuug.dk/jtc1/sc2/wg2/ ISO/IEC 10646:2003] Information technology -- Universal Multiple-Octet Coded Character Set (UCS)&amp;lt;/ref&amp;gt;と[[Internet Engineering Task Force|IETF]]によるかつての定義&amp;lt;ref&amp;gt;RFC 2279 UTF-8, a transformation format of ISO 10646&amp;lt;/ref&amp;gt;で、Unicodeの範囲外を符号化するためにのみ使用するが、Unicodeによる定義&amp;lt;ref&amp;gt;[http://www.unicode.org/versions/Unicode5.2.0/ The Unicode Standard, Version 5.2]&amp;lt;/ref&amp;gt;とIETFによる最新の定義&amp;lt;ref&amp;gt;RFC 3629 UTF-8, a transformation format of ISO 10646&amp;lt;/ref&amp;gt;では、5-6バイトの表現は不正なシーケンスである。&lt;br /&gt;
&lt;br /&gt;
ビットパターンは以下のようになっている。&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot; style=&amp;quot;white-space: nowrap; font-size: small;&amp;quot;&lt;br /&gt;
|-&lt;br /&gt;
! Unicode&lt;br /&gt;
! colspan=&amp;quot;6&amp;quot; | ビット列&lt;br /&gt;
! colspan=&amp;quot;6&amp;quot; | バイト列&lt;br /&gt;
! 有効ビット&lt;br /&gt;
! バイト数&lt;br /&gt;
|-&lt;br /&gt;
| U+0000 … U+007F&lt;br /&gt;
| style=&amp;quot;text-align: right; font-family: monospace;&amp;quot; | 0xxxxxxx&lt;br /&gt;
| colspan=&amp;quot;5&amp;quot; rowspan=&amp;quot;3&amp;quot; | &lt;br /&gt;
| style=&amp;quot;text-align: center; font-family: monospace;&amp;quot; | 00-7F&lt;br /&gt;
| colspan=&amp;quot;5&amp;quot; rowspan=&amp;quot;3&amp;quot; | &lt;br /&gt;
| rowspan=&amp;quot;3&amp;quot; style=&amp;quot;text-align: center;&amp;quot; | {{0}}7 bit&lt;br /&gt;
| rowspan=&amp;quot;3&amp;quot; style=&amp;quot;text-align: center;&amp;quot; | 1&lt;br /&gt;
|-&lt;br /&gt;
| (min) U+0000&lt;br /&gt;
| style=&amp;quot;text-align: right; font-family: monospace;&amp;quot; | 0000000&lt;br /&gt;
| style=&amp;quot;text-align: center; font-family: monospace;&amp;quot; | 00&lt;br /&gt;
|-&lt;br /&gt;
| (max) U+007F&lt;br /&gt;
| style=&amp;quot;text-align: right; font-family: monospace;&amp;quot; | 1111111&lt;br /&gt;
| style=&amp;quot;text-align: center; font-family: monospace;&amp;quot; | 7F&lt;br /&gt;
|-&lt;br /&gt;
| U+0080 … U+07FF&lt;br /&gt;
| style=&amp;quot;text-align: right; font-family: monospace;&amp;quot; | 110yyyyx&lt;br /&gt;
| style=&amp;quot;text-align: right; font-family: monospace;&amp;quot; | 10xxxxxx&lt;br /&gt;
| colspan=&amp;quot;4&amp;quot; rowspan=&amp;quot;3&amp;quot; | &lt;br /&gt;
| style=&amp;quot;text-align: center; font-family: monospace;&amp;quot; | C2-DF&lt;br /&gt;
| style=&amp;quot;text-align: center; font-family: monospace;&amp;quot; | 80-BF&lt;br /&gt;
| colspan=&amp;quot;4&amp;quot; rowspan=&amp;quot;3&amp;quot; | &lt;br /&gt;
| rowspan=&amp;quot;3&amp;quot; style=&amp;quot;text-align: center;&amp;quot; | 11 bit&lt;br /&gt;
| rowspan=&amp;quot;3&amp;quot; style=&amp;quot;text-align: center;&amp;quot; | 2&lt;br /&gt;
|-&lt;br /&gt;
| (min) U+0080&lt;br /&gt;
| style=&amp;quot;text-align: right; font-family: monospace;&amp;quot; | 00010&lt;br /&gt;
| style=&amp;quot;text-align: right; font-family: monospace;&amp;quot; | 000000&lt;br /&gt;
| style=&amp;quot;text-align: center; font-family: monospace;&amp;quot; | C2&lt;br /&gt;
| style=&amp;quot;text-align: center; font-family: monospace;&amp;quot; | 80&lt;br /&gt;
|-&lt;br /&gt;
| (max) U+07FF&lt;br /&gt;
| style=&amp;quot;text-align: right; font-family: monospace;&amp;quot; | 11111&lt;br /&gt;
| style=&amp;quot;text-align: right; font-family: monospace;&amp;quot; | 111111&lt;br /&gt;
| style=&amp;quot;text-align: center; font-family: monospace;&amp;quot; | DF&lt;br /&gt;
| style=&amp;quot;text-align: center; font-family: monospace;&amp;quot; | BF&lt;br /&gt;
|-&lt;br /&gt;
| U+0800 … U+FFFF&lt;br /&gt;
| style=&amp;quot;text-align: right; font-family: monospace;&amp;quot; | 1110yyyy&lt;br /&gt;
| style=&amp;quot;text-align: right; font-family: monospace;&amp;quot; | 10yxxxxx&lt;br /&gt;
| style=&amp;quot;text-align: right; font-family: monospace;&amp;quot; | 10xxxxxx&lt;br /&gt;
| colspan=&amp;quot;3&amp;quot; rowspan=&amp;quot;3&amp;quot; | &lt;br /&gt;
| style=&amp;quot;text-align: center; font-family: monospace;&amp;quot; | E0-EF&lt;br /&gt;
| style=&amp;quot;text-align: center; font-family: monospace;&amp;quot; | 80-BF&lt;br /&gt;
| style=&amp;quot;text-align: center; font-family: monospace;&amp;quot; | 80-BF&lt;br /&gt;
| colspan=&amp;quot;3&amp;quot; rowspan=&amp;quot;3&amp;quot; | &lt;br /&gt;
| rowspan=&amp;quot;3&amp;quot; style=&amp;quot;text-align: center;&amp;quot; | 16 bit&lt;br /&gt;
| rowspan=&amp;quot;3&amp;quot; style=&amp;quot;text-align: center;&amp;quot; | 3&lt;br /&gt;
|-&lt;br /&gt;
| (min) U+0800&lt;br /&gt;
| style=&amp;quot;text-align: right; font-family: monospace;&amp;quot; | 0000&lt;br /&gt;
| style=&amp;quot;text-align: right; font-family: monospace;&amp;quot; | 100000&lt;br /&gt;
| style=&amp;quot;text-align: right; font-family: monospace;&amp;quot; | 000000&lt;br /&gt;
| style=&amp;quot;text-align: center; font-family: monospace;&amp;quot; | E0&lt;br /&gt;
| style=&amp;quot;text-align: center; font-family: monospace;&amp;quot; | A0&lt;br /&gt;
| style=&amp;quot;text-align: center; font-family: monospace;&amp;quot; | 80&lt;br /&gt;
|-&lt;br /&gt;
| (max) U+FFFF&lt;br /&gt;
| style=&amp;quot;text-align: right; font-family: monospace;&amp;quot; | 1111&lt;br /&gt;
| style=&amp;quot;text-align: right; font-family: monospace;&amp;quot; | 111111&lt;br /&gt;
| style=&amp;quot;text-align: right; font-family: monospace;&amp;quot; | 111111&lt;br /&gt;
| style=&amp;quot;text-align: center; font-family: monospace;&amp;quot; | EF&lt;br /&gt;
| style=&amp;quot;text-align: center; font-family: monospace;&amp;quot; | BF&lt;br /&gt;
| style=&amp;quot;text-align: center; font-family: monospace;&amp;quot; | BF&lt;br /&gt;
|-&lt;br /&gt;
| U+10000 … U+1FFFFF&lt;br /&gt;
| style=&amp;quot;text-align: right; font-family: monospace;&amp;quot; | 11110yyy&lt;br /&gt;
| style=&amp;quot;text-align: right; font-family: monospace;&amp;quot; | 10yyxxxx&lt;br /&gt;
| style=&amp;quot;text-align: right; font-family: monospace;&amp;quot; | 10xxxxxx&lt;br /&gt;
| style=&amp;quot;text-align: right; font-family: monospace;&amp;quot; | 10xxxxxx&lt;br /&gt;
| colspan=&amp;quot;2&amp;quot; rowspan=&amp;quot;3&amp;quot; | &lt;br /&gt;
| style=&amp;quot;text-align: center; font-family: monospace;&amp;quot; | F0-F7&lt;br /&gt;
| style=&amp;quot;text-align: center; font-family: monospace;&amp;quot; | 80-BF&lt;br /&gt;
| style=&amp;quot;text-align: center; font-family: monospace;&amp;quot; | 80-BF&lt;br /&gt;
| style=&amp;quot;text-align: center; font-family: monospace;&amp;quot; | 80-BF&lt;br /&gt;
| colspan=&amp;quot;2&amp;quot; rowspan=&amp;quot;3&amp;quot; | &lt;br /&gt;
| rowspan=&amp;quot;3&amp;quot; style=&amp;quot;text-align: center;&amp;quot; | 21 bit&lt;br /&gt;
| rowspan=&amp;quot;3&amp;quot; style=&amp;quot;text-align: center;&amp;quot; | 4&lt;br /&gt;
|-&lt;br /&gt;
| (min) U+10000&lt;br /&gt;
| style=&amp;quot;text-align: right; font-family: monospace;&amp;quot; | 000&lt;br /&gt;
| style=&amp;quot;text-align: right; font-family: monospace;&amp;quot; | 010000&lt;br /&gt;
| style=&amp;quot;text-align: right; font-family: monospace;&amp;quot; | 000000&lt;br /&gt;
| style=&amp;quot;text-align: right; font-family: monospace;&amp;quot; | 000000&lt;br /&gt;
| style=&amp;quot;text-align: center; font-family: monospace;&amp;quot; | F0&lt;br /&gt;
| style=&amp;quot;text-align: center; font-family: monospace;&amp;quot; | 90&lt;br /&gt;
| style=&amp;quot;text-align: center; font-family: monospace;&amp;quot; | 80&lt;br /&gt;
| style=&amp;quot;text-align: center; font-family: monospace;&amp;quot; | 80&lt;br /&gt;
|-&lt;br /&gt;
| (max) U+1FFFFF&lt;br /&gt;
| style=&amp;quot;text-align: right; font-family: monospace;&amp;quot; | 111&lt;br /&gt;
| style=&amp;quot;text-align: right; font-family: monospace;&amp;quot; | 111111&lt;br /&gt;
| style=&amp;quot;text-align: right; font-family: monospace;&amp;quot; | 111111&lt;br /&gt;
| style=&amp;quot;text-align: right; font-family: monospace;&amp;quot; | 111111&lt;br /&gt;
| style=&amp;quot;text-align: center; font-family: monospace;&amp;quot; | F7&lt;br /&gt;
| style=&amp;quot;text-align: center; font-family: monospace;&amp;quot; | BF&lt;br /&gt;
| style=&amp;quot;text-align: center; font-family: monospace;&amp;quot; | BF&lt;br /&gt;
| style=&amp;quot;text-align: center; font-family: monospace;&amp;quot; | BF&lt;br /&gt;
|}&lt;br /&gt;
&lt;br /&gt;
Unicodeの符号位置を2進表記したものを、上のビットパターンのx, yに右詰めに格納する。最短のバイト数で符号化するため、yの部分には最低1回は1が出現する。符号化されたバイト列は、[[エンディアン|バイト順]]に関わらず左から順に出力する。これにより4バイトで21bit、6バイトで31bitまで表現することができる。&lt;br /&gt;
&lt;br /&gt;
1バイト目の先頭の連続するビット &amp;quot;1&amp;quot;（その後にビット &amp;quot;0&amp;quot; が1つ付く）の個数で、その文字のバイト数がわかるようになっている。また、2バイト目以降はビットパターン &amp;quot;10&amp;quot; で始まり、1バイト目と2バイト目以降では値の範囲が重ならないので、文字境界を確実に判定できる。すなわち、任意のバイトの先頭ビットが &amp;quot;0&amp;quot; なら1バイト文字、&amp;quot;10&amp;quot; なら2バイト以上の文字の2番目以降のバイト、&amp;quot;110&amp;quot; なら2バイト文字の先頭バイト、&amp;quot;1110&amp;quot; なら3バイト文字の先頭バイト、&amp;quot;11110&amp;quot; なら4バイト文字の先頭バイトであると判定できる。&lt;br /&gt;
&lt;br /&gt;
7バイト以上の文字は規定されないため、&amp;lt;code&amp;gt;0xFE、0xFF&amp;lt;/code&amp;gt;は使用されない。このため、[[バイトオーダーマーク|バイト順マーク]] (BOM) に&amp;lt;code&amp;gt;0xFEと0xFF&amp;lt;/code&amp;gt;を使用するUTF-16やUTF-32が、UTF-8と混同されることはない。&lt;br /&gt;
&lt;br /&gt;
== 特徴 ==&lt;br /&gt;
=== メリット ===&lt;br /&gt;
* バイトストリーム中の任意の位置から、その文字、前の文字、あるいは次の文字の先頭バイトを容易に判定することができる。&lt;br /&gt;
* 文字列の検索を単なるバイト列の検索として行っても、文字境界と異なる個所でマッチしてしまうことがない。たとえば[[Shift_JIS]]で「¥」(0x5C) を検索すると「表」(0x95 0x5C) の2バイト目にマッチしたり、[[EUC-JP]]で「海」(0xB3 0xA4) を検索すると「ここ」(0xA4 0xB3 0xA4 0xB3) にマッチしたりするのと同様のことが起きない。このため、[[マルチバイト文字]]を意識せず、[[ISO/IEC 8859-1|ISO 8859-1]]などの8bit文字向けに作られた膨大なプログラム資産を、比較的少ない修正で再利用できる。&lt;br /&gt;
** ただし、他のUnicodeの符号化と同様に、単にバイト列の比較では文字列が同一か判断できない場合がある。詳細は、[[Unicodeの等価性]]及び[[Unicode正規化|正規化]]を参照のこと。&lt;br /&gt;
* [[UTF-16]]や[[UTF-32]]と異なり、バイト単位の入出力を行うため、[[エンディアン|バイト順]]の影響がない。&lt;br /&gt;
* 21bitまで表現できるため、[[サロゲートペア]]を使用する必要がない。&lt;br /&gt;
* ASCII文字が主体の文書であれば、ほとんどデータサイズを増やさずにUnicodeのメリットを享受できる。UTF-16やUTF-32では、データサイズはほぼ2倍、4倍となる。&lt;br /&gt;
* 複数のUTF-8文字列を、単なる符号なし8ビット整数の配列とみなして辞書順ソートした結果は、Unicodeの符号位置の辞書順のソート結果（すなわちUTF-32に変換した後にソートした結果）と等しくなる。これに対して、サロゲートペアを含むUTF-16文字列を符号なし16ビット整数の配列とみなしてソートした結果は、Unicodeの符号位置の辞書順のソート結果と異なりうる。&lt;br /&gt;
&lt;br /&gt;
=== デメリット ===&lt;br /&gt;
* UTF-8による符号化では、[[漢字]]や[[仮名 (文字)|仮名]]などの表現に3[[バイト (情報)|バイト]]を要する。このように、東アジアの従来文字コードでは[[マルチバイト文字|マルチバイト符号]]を用いて1文字2バイトで表現されていたデータが、1.5倍かそれ以上のサイズとなる。同様に、[[ISO/IEC 8859-1]]では1バイトで表現できた非ASCIIのラテン文字（[[ウムラウト]]付きの文字など）も2バイトとなるし、その他の[[ISO/IEC 8859|ISO/IEC 8859シリーズ]]に属する文字符号ではデータ量がさらに増大しうる。&lt;br /&gt;
** なお、1バイトが9ビットである処理系では、この問題をあまり発生させずに符号化できるはずである。このアイディアに基づいた[[ジョークRFC]]がRFC 4042 “UTF-9” として[[2005年]]の[[エイプリルフール]]（[[4月1日]]）に公開された。&lt;br /&gt;
* {{要検証範囲|date=2018年3月|文字数とデータサイズが比例しないため、文字数を調べるには先頭から全データを読み取る必要がある。}}ただし、Unicodeでは一部の文字を合成によって表現することもできるから（例：「ぱ」は、U+3071のほかにもU+306F U+309Aでも表現できる）、Unicodeを採用する場合、文字列の文字数をその文字列のバイト数から計算できないことは、UTF-8に限ったことではない。&lt;br /&gt;
* 最短ではない符号やサロゲートペアなど、UTF-8の規格外だがチェックを行わないプログラムでは一見正常に扱われるバイト列が存在する。これらのバイト列を入力として受け入れてしまうと、プログラムが予期しない範囲のデータを生成するため、セキュリティ上の脅威となりうる&amp;lt;ref&amp;gt;RFC 3629, pp.9f.&amp;lt;/ref&amp;gt;。&lt;br /&gt;
&lt;br /&gt;
== サロゲートペアの扱い ==&lt;br /&gt;
[[UTF-16]]では[[Unicode#サロゲートペア|サロゲートペア]]で表されるような、[[基本多言語面]]外の符号位置をUTF-8で表す時は、変換元がUTF-16でサロゲートペアの時には U+D800 ～ U+DBFF, U+DC00 ～ U+DFFF を表すUTF-8にそのまま変換したりはせず、U+10000 ～ U+10FFFF の符号位置にデコードしてから変換する。そのままUTF-8で符号化したような列は不正なUTF-8とされる。&lt;br /&gt;
&lt;br /&gt;
サロゲートペアのままUTF-8と同等の符号化を行う符号化は、&amp;#039;&amp;#039;&amp;#039;CESU-8&amp;#039;&amp;#039;&amp;#039; {{Lang|en|(Compatibility Encoding Scheme for UTF-16: 8-Bit)}} として別途定義されている。実用に供されている例としては、[[Oracle Database]]のバージョン8以前において、UTF-8として3オクテットまでのオクテット列しか扱えなかったために定義されたものである。本来のUTF-8における4オクテット列の代わりに、サロゲート符号位置を表す3オクテット列のペア（上位が ED A0 80 ～ ED AF BF、下位が ED B0 80 ～ ED BF BF）で表現される。&lt;br /&gt;
&lt;br /&gt;
現在のOracle Databaseでも、CESU-8を「UTF8」として、「普通のUTF-8」を「AL32UTF8」として扱っているため注意を要する。[[MySQL]]でも「utf8」を指定した場合は4オクテット列が扱えず、CESU-8相当の符号化を必要とする（4オクテット列対応のUTF-8は「utf8mb4」として別途定義されているが、MySQL 5.5.3以降でないと使用できない&amp;lt;ref&amp;gt;[https://dev.mysql.com/doc/refman/5.5/en/charset-unicode-utf8mb4.html 10.1.10.6 The utf8mb4 Character Set (4-Byte UTF-8 Unicode Encoding)] - MySQL 5.5 Reference Manual&amp;lt;/ref&amp;gt;）。&lt;br /&gt;
&lt;br /&gt;
また、[[Java]]の一部の内部実装で用いられている&amp;#039;&amp;#039;&amp;#039;Modified UTF-8&amp;#039;&amp;#039;&amp;#039;も、サロゲートペアをそのまま残す仕様となっている。ただし、NULL文字を&amp;lt;code&amp;gt;C0 80&amp;lt;/code&amp;gt;とエンコードする（これもUTF-8規格外）点で、CESU-8とも異なる実装となっている。&lt;br /&gt;
&lt;br /&gt;
== セキュリティ ==&lt;br /&gt;
UTF-8のエンコード体系には[[冗長性 (情報理論)|冗長性]]があり、同じ文字を符号化するのに複数の表現が考えられる（例: スラッシュ記号である「/」を 0x2F という1バイトで表現するのではなく、0xC0 0xAF という2バイトもしくはそれより大きなバイト数で表現する）。かつてはそのような表現も許容されていたが、[[ディレクトリトラバーサル]]などの対策として行われる文字列検査を冗長な表現によりすり抜ける手法が知られるようになったため、現在の仕様では最も短いバイト数による表現以外は不正なUTF-8シーケンスとみなさなければならない&amp;lt;ref&amp;gt;Windowsにおける有名な[[ワーム (コンピュータ)|ワーム]]である[[Nimda|Nimdaウイルス]]は、[[Internet Information Services|IIS]]におけるUTF-8の脆弱性をもちいたものである。{{Harv|はせがわようすけ|2009}}&amp;lt;/ref&amp;gt;。&lt;br /&gt;
&lt;br /&gt;
ISO/IEC 10646の定義が5バイト以上の表現を許容していることにより、正しくない実装を行った[[バグ]]のあるシステムにおいてエンコード時に[[バッファオーバーフロー]]が発生する可能性も指摘されている。&lt;br /&gt;
&lt;br /&gt;
== 文字種 ==&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
! B !! Unicode !! スクリプト !! [[JIS X 0201]] !! [[JIS X 0208]] !! [[JIS X 0212]] !! [[JIS X 0213]]&lt;br /&gt;
|-&lt;br /&gt;
| 1 || U+0000 - U+007F || [[ASCII]] || Roman（[[円記号]]・[[オーバーライン]]以外） || - || - || -&lt;br /&gt;
|-&lt;br /&gt;
| 2 || U+0080 - U+07FF || [[ラテン文字|ラテン]]、[[ダイアクリティカルマーク|ダイアクリティカル]]、[[ギリシャ文字|ギリシャ]]、&amp;lt;br /&amp;gt;[[キリール文字|キリール]]、[[アルメニア文字|アルメニア]]、[[ヘブライ文字|ヘブライ]]、[[アラビア文字|アラビア]]、&amp;lt;br /&amp;gt;[[シリア文字|シリア]]、[[ターナ文字|ターナ]]、[[ンコ文字|ンコ]] || 円記号 || 非漢字の一部 || 非漢字の一部 || 非漢字の一部&lt;br /&gt;
|-&lt;br /&gt;
| 3 || U+0800 - U+FFFF || [[アブギダ|インド系諸文字]]、[[句読点]]、[[学術記号]]、&amp;lt;br /&amp;gt;[[絵文字]]、[[東アジア]]の諸文字、[[全角と半角|全角半角形]]など || オーバーライン、Kana || 残りの全て || 残りの全て || 大半&lt;br /&gt;
|-&lt;br /&gt;
| 4 || U+10000 - U+1FFFFF || [[古代文字]]、3に含まれない漢字 || - || - || - || 第3・第4水準漢字の一部&lt;br /&gt;
|}&lt;br /&gt;
&lt;br /&gt;
== バイト順マークの使用について ==&lt;br /&gt;
UTF-8で符号されたテキストデータは[[エンディアン]]に関わらず同じ内容になるので、[[バイトオーダーマーク|バイト順マーク]] (BOM) は必要ない。しかし、テキストデータがUTF-8で符号化されていることの標識として、データの先頭にEF BB BF（16進。UCSでのバイト順マークU+FEFFのUTF-8での表現）を付加することが許される。一部のテキスト処理アプリケーション（エディタなど）がこのような動作をする（[[TeraPad]]、[[EmEditor]]エディタのように付加するかどうかを選択できるものもある）。&lt;br /&gt;
&lt;br /&gt;
なお、日本の特殊事情として、このシーケンスがある方を&amp;#039;&amp;#039;&amp;#039;UTF-8&amp;#039;&amp;#039;&amp;#039;、ない方を特に&amp;#039;&amp;#039;&amp;#039;UTF-8N&amp;#039;&amp;#039;&amp;#039;と呼ぶこともある&amp;lt;ref&amp;gt;{{Cite web |url=http://www-128.ibm.com/developerworks/library/utfencodingforms/index.html |archiveurl=http://web.archive.org/web/20050506211548/http://www-128.ibm.com/developerworks/library/utfencodingforms/index.html| accessdate=18 September 2013 | archivedate=6 May 2005 |language=英語 |author=Mark Davis |publisher=[[IBM]] |title=Forms of Unicode}}&amp;lt;/ref&amp;gt;が、このような呼び分けは日本以外ではほとんど知られておらず、また公的規格などによる裏付けもない&amp;lt;ref&amp;gt;このため、UTF-8という呼び名を使っていれば情報交換の相手が文書先頭にこのシーケンスがあると見なすと期待すべきではないし、また、UTF-8Nという呼び名は情報交換の際に用いるべきではない。&amp;lt;/ref&amp;gt;。&lt;br /&gt;
&lt;br /&gt;
このシーケンスを通常の文字と認識するプログラムでは、先頭に余分なデータがあるとみなされて問題となることがある。例えば、[[Unix系]]OSにおける実行可能[[スクリプト言語|スクリプト]]は、ファイル先頭が「[[シバン (Unix)|#!]]」から始まるとき、それに続く文字列を[[インタプリタ]]のコマンドとして認識するが、多くのシステムでは、このシーケンスが存在するとこの機能が働かず実行できない。PHPでは、&amp;lt;?PHPの前に出力されるため、header()関数の実行に失敗する原因となる。&lt;br /&gt;
&lt;br /&gt;
逆にこのシーケンスがないとUTF-8と認識できないプログラムも存在する。とくにASCII部以外の文字が少ない場合に誤認することが多い（たとえば、[[Microsoft Excel]]では、[[Comma-Separated Values|CSVファイル]]を開くとき、このシーケンスが付加されていないUTF-8の場合は正常に読み込むことができない&amp;lt;ref&amp;gt;{{Cite web |date=2010-01-07 |url=http://okwave.jp/qa/q5574877.html |title=ExcelでUTF-8の csvデータを表示するには |publisher=[[OKWave]]|accessdate=2014-09-10}} や、{{Cite journal|和書|url=http://mism.blog13.fc2.com/blog-entry-202.html |title=UTF-8で文字化け回避してCSV出力する方法&amp;quot;|format=[[ブログ]] |author =えむ |journal =エムイズム - つぶやきブログ |date=2007-03-15}} を参照。&amp;lt;/ref&amp;gt;。[[Microsoft Windows]]に付属する[[メモ帳]]、[[ワードパッド]]も同様。）。&lt;br /&gt;
&lt;br /&gt;
プロトコルが常にUTF-8である事を強制しているものである場合はこのシーケンスを禁止するべきで、この場合ファイル先頭にこのシーケンスが現れると “ZERO WIDTH NO-BREAK SPACE” と見なされる。逆にプロトコルがそれを保証しない場合このシーケンスは禁止されずファイル先頭のそれはバイト順マークと見なされる&amp;lt;ref&amp;gt;RFC 3629 [http://tools.ietf.org/html/rfc3629#section-6 6. Byte order mark (BOM)]&amp;lt;/ref&amp;gt;。&lt;br /&gt;
&lt;br /&gt;
== 脚注 ==&lt;br /&gt;
{{脚注ヘルプ}}&lt;br /&gt;
{{Reflist|2}}&lt;br /&gt;
&lt;br /&gt;
== 参考資料 ==&lt;br /&gt;
{{Refbegin}}&lt;br /&gt;
*用語の日本語表記は原則として「{{Cite web | url = http://www.unicode.org/terminology/term_en_ja.html | title = Unicode Terminology English - Japanese | publisher = Unicode, Inc | accessdate = 2010-01-01}}」にならった。&lt;br /&gt;
*{{Cite web |author=はせがわようすけ |date=2009-05-08 |url=http://gihyo.jp/admin/serial/01/charcode/0004 |title=本当は怖い文字コードの話: 第4回 UTF-8の冗長なエンコード |publisher=技術評論社 |accessdate=2014-09-10}}&lt;br /&gt;
{{Refend}}&lt;br /&gt;
== 関連項目 ==&lt;br /&gt;
*[[文字コード]]&lt;br /&gt;
&lt;br /&gt;
{{文字コード}}&lt;br /&gt;
{{ロブ・パイク}}&lt;br /&gt;
{{ケン・トンプソン}}&lt;br /&gt;
&lt;br /&gt;
{{DEFAULTSORT:UTF-08}}&lt;br /&gt;
[[Category:文字コード]]&lt;br /&gt;
[[Category:Unicode]]&lt;br /&gt;
[[Category:RFC|2044]]&lt;/div&gt;</summary>
		<author><name>111.239.37.196</name></author>
		
	</entry>
</feed><br />
<b>Warning</b>:  Cannot modify header information - headers already sent by (output started at /home/users/1/sub.jp-asate/web/wiki/extensions/HeadScript/HeadScript.php:3) in <b>/home/users/1/sub.jp-asate/web/wiki/includes/WebResponse.php</b> on line <b>46</b><br />