DMA-mapping.txt
上传用户:lgb322
上传日期:2013-02-24
资源大小:30529k
文件大小:29k
源码类别:

嵌入式Linux

开发平台:

Unix_Linux

  1. Dynamic DMA mapping
  2. ===================
  3.  David S. Miller <davem@redhat.com>
  4.  Richard Henderson <rth@cygnus.com>
  5.   Jakub Jelinek <jakub@redhat.com>
  6. Most of the 64bit platforms have special hardware that translates bus
  7. addresses (DMA addresses) into physical addresses.  This is similar to
  8. how page tables and/or a TLB translates virtual addresses to physical
  9. addresses on a cpu.  This is needed so that e.g. PCI devices can
  10. access with a Single Address Cycle (32bit DMA address) any page in the
  11. 64bit physical address space.  Previously in Linux those 64bit
  12. platforms had to set artificial limits on the maximum RAM size in the
  13. system, so that the virt_to_bus() static scheme works (the DMA address
  14. translation tables were simply filled on bootup to map each bus
  15. address to the physical page __pa(bus_to_virt())).
  16. So that Linux can use the dynamic DMA mapping, it needs some help from the
  17. drivers, namely it has to take into account that DMA addresses should be
  18. mapped only for the time they are actually used and unmapped after the DMA
  19. transfer.
  20. The following API will work of course even on platforms where no such
  21. hardware exists, see e.g. include/asm-i386/pci.h for how it is implemented on
  22. top of the virt_to_bus interface.
  23. First of all, you should make sure
  24. #include <linux/pci.h>
  25. is in your driver. This file will obtain for you the definition of the
  26. dma_addr_t (which can hold any valid DMA address for the platform)
  27. type which should be used everywhere you hold a DMA (bus) address
  28. returned from the DMA mapping functions.
  29.  What memory is DMA'able?
  30. The first piece of information you must know is what kernel memory can
  31. be used with the DMA mapping facilitites.  There has been an unwritten
  32. set of rules regarding this, and this text is an attempt to finally
  33. write them down.
  34. If you acquired your memory via the page allocator
  35. (i.e. __get_free_page*()) or the generic memory allocators
  36. (i.e. kmalloc() or kmem_cache_alloc()) then you may DMA to/from
  37. that memory using the addresses returned from those routines.
  38. This means specifically that you may _not_ use the memory/addresses
  39. returned from vmalloc() for DMA.  It is possible to DMA to the
  40. _underlying_ memory mapped into a vmalloc() area, but this requires
  41. walking page tables to get the physical addresses, and then
  42. translating each of those pages back to a kernel address using
  43. something like __va().  [ EDIT: Update this when we integrate
  44. Gerd Knorr's generic code which does this. ]
  45. This rule also means that you may not use kernel image addresses
  46. (ie. items in the kernel's data/text/bss segment, or your driver's)
  47. nor may you use kernel stack addresses for DMA.  Both of these items
  48. might be mapped somewhere entirely different than the rest of physical
  49. memory.
  50. Also, this means that you cannot take the return of a kmap()
  51. call and DMA to/from that.  This is similar to vmalloc().
  52. What about block I/O and networking buffers?  The block I/O and
  53. networking subsystems make sure that the buffers they use are valid
  54. for you to DMA from/to.
  55. DMA addressing limitations
  56. Does your device have any DMA addressing limitations?  For example, is
  57. your device only capable of driving the low order 24-bits of address
  58. on the PCI bus for SAC DMA transfers?  If so, you need to inform the
  59. PCI layer of this fact.
  60. By default, the kernel assumes that your device can address the full
  61. 32-bits in a SAC cycle.  For a 64-bit DAC capable device, this needs
  62. to be increased.  And for a device with limitations, as discussed in
  63. the previous paragraph, it needs to be decreased.
  64. For correct operation, you must interrogate the PCI layer in your
  65. device probe routine to see if the PCI controller on the machine can
  66. properly support the DMA addressing limitation your device has.  It is
  67. good style to do this even if your device holds the default setting,
  68. because this shows that you did think about these issues wrt. your
  69. device.
  70. The query is performed via a call to pci_set_dma_mask():
  71. int pci_set_dma_mask(struct pci_dev *pdev, u64 device_mask);
  72. Here, pdev is a pointer to the PCI device struct of your device, and
  73. device_mask is a bit mask describing which bits of a PCI address your
  74. device supports.  It returns zero if your card can perform DMA
  75. properly on the machine given the address mask you provided.
  76. If it returns non-zero, your device can not perform DMA properly on
  77. this platform, and attempting to do so will result in undefined
  78. behavior.  You must either use a different mask, or not use DMA.
  79. This means that in the failure case, you have three options:
  80. 1) Use another DMA mask, if possible (see below).
  81. 2) Use some non-DMA mode for data transfer, if possible.
  82. 3) Ignore this device and do not initialize it.
  83. It is recommended that your driver print a kernel KERN_WARNING message
  84. when you end up performing either #2 or #2.  In this manner, if a user
  85. of your driver reports that performance is bad or that the device is not
  86. even detected, you can ask them for the kernel messages to find out
  87. exactly why.
  88. The standard 32-bit addressing PCI device would do something like
  89. this:
  90. if (pci_set_dma_mask(pdev, 0xffffffff)) {
  91. printk(KERN_WARNING
  92.        "mydev: No suitable DMA available.n");
  93. goto ignore_this_device;
  94. }
  95. Another common scenario is a 64-bit capable device.  The approach
  96. here is to try for 64-bit DAC addressing, but back down to a
  97. 32-bit mask should that fail.  The PCI platform code may fail the
  98. 64-bit mask not because the platform is not capable of 64-bit
  99. addressing.  Rather, it may fail in this case simply because
  100. 32-bit SAC addressing is done more efficiently than DAC addressing.
  101. Sparc64 is one platform which behaves in this way.
  102. Here is how you would handle a 64-bit capable device which can drive
  103. all 64-bits during a DAC cycle:
  104. int using_dac;
  105. if (!pci_set_dma_mask(pdev, 0xffffffffffffffff)) {
  106. using_dac = 1;
  107. } else if (!pci_set_dma_mask(pdev, 0xffffffff)) {
  108. using_dac = 0;
  109. } else {
  110. printk(KERN_WARNING
  111.        "mydev: No suitable DMA available.n");
  112. goto ignore_this_device;
  113. }
  114. If your 64-bit device is going to be an enormous consumer of DMA
  115. mappings, this can be problematic since the DMA mappings are a
  116. finite resource on many platforms.  Please see the "DAC Addressing
  117. for Address Space Hungry Devices" setion near the end of this
  118. document for how to handle this case.
  119. Finally, if your device can only drive the low 24-bits of
  120. address during PCI bus mastering you might do something like:
  121. if (pci_set_dma_mask(pdev, 0x00ffffff)) {
  122. printk(KERN_WARNING
  123.        "mydev: 24-bit DMA addressing not available.n");
  124. goto ignore_this_device;
  125. }
  126. When pci_set_dma_mask() is successful, and returns zero, the PCI layer
  127. saves away this mask you have provided.  The PCI layer will use this
  128. information later when you make DMA mappings.
  129. There is a case which we are aware of at this time, which is worth
  130. mentioning in this documentation.  If your device supports multiple
  131. functions (for example a sound card provides playback and record
  132. functions) and the various different functions have _different_
  133. DMA addressing limitations, you may wish to probe each mask and
  134. only provide the functionality which the machine can handle.  It
  135. is important that the last call to pci_set_dma_mask() be for the 
  136. most specific mask.
  137. Here is pseudo-code showing how this might be done:
  138. #define PLAYBACK_ADDRESS_BITS 0xffffffff
  139. #define RECORD_ADDRESS_BITS 0x00ffffff
  140. struct my_sound_card *card;
  141. struct pci_dev *pdev;
  142. ...
  143. if (pci_set_dma_mask(pdev, PLAYBACK_ADDRESS_BITS)) {
  144. card->playback_enabled = 1;
  145. } else {
  146. card->playback_enabled = 0;
  147. printk(KERN_WARN "%s: Playback disabled due to DMA limitations.n",
  148.        card->name);
  149. }
  150. if (pci_set_dma_mask(pdev, RECORD_ADDRESS_BITS)) {
  151. card->record_enabled = 1;
  152. } else {
  153. card->record_enabled = 0;
  154. printk(KERN_WARN "%s: Record disabled due to DMA limitations.n",
  155.        card->name);
  156. }
  157. A sound card was used as an example here because this genre of PCI
  158. devices seems to be littered with ISA chips given a PCI front end,
  159. and thus retaining the 16MB DMA addressing limitations of ISA.
  160. Types of DMA mappings
  161. There are two types of DMA mappings:
  162. - Consistent DMA mappings which are usually mapped at driver
  163.   initialization, unmapped at the end and for which the hardware should
  164.   guarantee that the device and the cpu can access the data
  165.   in parallel and will see updates made by each other without any
  166.   explicit software flushing.
  167.   Think of "consistent" as "synchronous" or "coherent".
  168.   Consistent DMA mappings are always SAC addressable.  That is
  169.   to say, consistent DMA addresses given to the driver will always
  170.   be in the low 32-bits of the PCI bus space.
  171.   Good examples of what to use consistent mappings for are:
  172. - Network card DMA ring descriptors.
  173. - SCSI adapter mailbox command data structures.
  174. - Device firmware microcode executed out of
  175.   main memory.
  176.   The invariant these examples all require is that any cpu store
  177.   to memory is immediately visible to the device, and vice
  178.   versa.  Consistent mappings guarantee this.
  179.   IMPORTANT: Consistent DMA memory does not preclude the usage of
  180.              proper memory barriers.  The cpu may reorder stores to
  181.      consistent memory just as it may normal memory.  Example:
  182.      if it is important for the device to see the first word
  183.      of a descriptor updated before the second, you must do
  184.      something like:
  185. desc->word0 = address;
  186. wmb();
  187. desc->word1 = DESC_VALID;
  188.              in order to get correct behavior on all platforms.
  189. - Streaming DMA mappings which are usually mapped for one DMA transfer,
  190.   unmapped right after it (unless you use pci_dma_sync below) and for which
  191.   hardware can optimize for sequential accesses.
  192.   This of "streaming" as "asynchronous" or "outside the coherency
  193.   domain".
  194.   Good examples of what to use streaming mappings for are:
  195. - Networking buffers transmitted/received by a device.
  196. - Filesystem buffers written/read by a SCSI device.
  197.   The interfaces for using this type of mapping were designed in
  198.   such a way that an implementation can make whatever performance
  199.   optimizations the hardware allows.  To this end, when using
  200.   such mappings you must be explicit about what you want to happen.
  201. Neither type of DMA mapping has alignment restrictions that come
  202. from PCI, although some devices may have such restrictions.
  203.  Using Consistent DMA mappings.
  204. To allocate and map large (PAGE_SIZE or so) consistent DMA regions,
  205. you should do:
  206. dma_addr_t dma_handle;
  207. cpu_addr = pci_alloc_consistent(dev, size, &dma_handle);
  208. where dev is a struct pci_dev *. You should pass NULL for PCI like buses
  209. where devices don't have struct pci_dev (like ISA, EISA).  This may be
  210. called in interrupt context. 
  211. This argument is needed because the DMA translations may be bus
  212. specific (and often is private to the bus which the device is attached
  213. to).
  214. Size is the length of the region you want to allocate, in bytes.
  215. This routine will allocate RAM for that region, so it acts similarly to
  216. __get_free_pages (but takes size instead of a page order).  If your
  217. driver needs regions sized smaller than a page, you may prefer using
  218. the pci_pool interface, described below.
  219. The consistent DMA mapping interfaces, for non-NULL dev, will always
  220. return a DMA address which is SAC (Single Address Cycle) addressible.
  221. Even if the device indicates (via PCI dma mask) that it may address
  222. the upper 32-bits and thus perform DAC cycles, consistent allocation
  223. will still only return 32-bit PCI addresses for DMA.  This is true
  224. of the pci_pool interface as well.
  225. In fact, as mentioned above, all consistent memory provided by the
  226. kernel DMA APIs are always SAC addressable.
  227. pci_alloc_consistent returns two values: the virtual address which you
  228. can use to access it from the CPU and dma_handle which you pass to the
  229. card.
  230. The cpu return address and the DMA bus master address are both
  231. guaranteed to be aligned to the smallest PAGE_SIZE order which
  232. is greater than or equal to the requested size.  This invariant
  233. exists (for example) to guarantee that if you allocate a chunk
  234. which is smaller than or equal to 64 kilobytes, the extent of the
  235. buffer you receive will not cross a 64K boundary.
  236. To unmap and free such a DMA region, you call:
  237. pci_free_consistent(dev, size, cpu_addr, dma_handle);
  238. where dev, size are the same as in the above call and cpu_addr and
  239. dma_handle are the values pci_alloc_consistent returned to you.
  240. This function may not be called in interrupt context.
  241. If your driver needs lots of smaller memory regions, you can write
  242. custom code to subdivide pages returned by pci_alloc_consistent,
  243. or you can use the pci_pool API to do that.  A pci_pool is like
  244. a kmem_cache, but it uses pci_alloc_consistent not __get_free_pages.
  245. Also, it understands common hardware constraints for alignment,
  246. like queue heads needing to be aligned on N byte boundaries.
  247. Create a pci_pool like this:
  248. struct pci_pool *pool;
  249. pool = pci_pool_create(name, dev, size, align, alloc, flags);
  250. The "name" is for diagnostics (like a kmem_cache name); dev and size
  251. are as above.  The device's hardware alignment requirement for this
  252. type of data is "align" (which is expressed in bytes, and must be a
  253. power of two).  The flags are SLAB_ flags as you'd pass to
  254. kmem_cache_create.  Not all flags are understood, but SLAB_POISON may
  255. help you find driver bugs.  If you call this in a non- sleeping
  256. context (f.e. in_interrupt is true or while holding SMP locks), pass
  257. SLAB_ATOMIC.  If your device has no boundary crossing restrictions,
  258. pass 0 for alloc; passing 4096 says memory allocated from this pool
  259. must not cross 4KByte boundaries (but at that time it may be better to
  260. go for pci_alloc_consistent directly instead).
  261. Allocate memory from a pci pool like this:
  262. cpu_addr = pci_pool_alloc(pool, flags, &dma_handle);
  263. flags are SLAB_KERNEL if blocking is permitted (not in_interrupt nor
  264. holding SMP locks), SLAB_ATOMIC otherwise.  Like pci_alloc_consistent,
  265. this returns two values, cpu_addr and dma_handle.
  266. Free memory that was allocated from a pci_pool like this:
  267. pci_pool_free(pool, cpu_addr, dma_handle);
  268. where pool is what you passed to pci_pool_alloc, and cpu_addr and
  269. dma_handle are the values pci_pool_alloc returned. This function
  270. may be called in interrupt context.
  271. Destroy a pci_pool by calling:
  272. pci_pool_destroy(pool);
  273. Make sure you've called pci_pool_free for all memory allocated
  274. from a pool before you destroy the pool. This function may not
  275. be called in interrupt context.
  276. DMA Direction
  277. The interfaces described in subsequent portions of this document
  278. take a DMA direction argument, which is an integer and takes on
  279. one of the following values:
  280.  PCI_DMA_BIDIRECTIONAL
  281.  PCI_DMA_TODEVICE
  282.  PCI_DMA_FROMDEVICE
  283.  PCI_DMA_NONE
  284. One should provide the exact DMA direction if you know it.
  285. PCI_DMA_TODEVICE means "from main memory to the PCI device"
  286. PCI_DMA_FROMDEVICE means "from the PCI device to main memory"
  287. It is the direction in which the data moves during the DMA
  288. transfer.
  289. You are _strongly_ encouraged to specify this as precisely
  290. as you possibly can.
  291. If you absolutely cannot know the direction of the DMA transfer,
  292. specify PCI_DMA_BIDIRECTIONAL.  It means that the DMA can go in
  293. either direction.  The platform guarantees that you may legally
  294. specify this, and that it will work, but this may be at the
  295. cost of performance for example.
  296. The value PCI_DMA_NONE is to be used for debugging.  One can
  297. hold this in a data structure before you come to know the
  298. precise direction, and this will help catch cases where your
  299. direction tracking logic has failed to set things up properly.
  300. Another advantage of specifying this value precisely (outside of
  301. potential platform-specific optimizations of such) is for debugging.
  302. Some platforms actually have a write permission boolean which DMA
  303. mappings can be marked with, much like page protections in the user
  304. program address space.  Such platforms can and do report errors in the
  305. kernel logs when the PCI controller hardware detects violation of the
  306. permission setting.
  307. Only streaming mappings specify a direction, consistent mappings
  308. implicitly have a direction attribute setting of
  309. PCI_DMA_BIDIRECTIONAL.
  310. The SCSI subsystem provides mechanisms for you to easily obtain
  311. the direction to use, in the SCSI command:
  312. scsi_to_pci_dma_dir(SCSI_DIRECTION)
  313. Where SCSI_DIRECTION is obtained from the 'sc_data_direction'
  314. member of the SCSI command your driver is working on.  The
  315. mentioned interface above returns a value suitable for passing
  316. into the streaming DMA mapping interfaces below.
  317. For Networking drivers, it's a rather simple affair.  For transmit
  318. packets, map/unmap them with the PCI_DMA_TODEVICE direction
  319. specifier.  For receive packets, just the opposite, map/unmap them
  320. with the PCI_DMA_FROMDEVICE direction specifier.
  321.   Using Streaming DMA mappings
  322. The streaming DMA mapping routines can be called from interrupt
  323. context.  There are two versions of each map/unmap, one which will
  324. map/unmap a single memory region, and one which will map/unmap a
  325. scatterlist.
  326. To map a single region, you do:
  327. struct pci_dev *pdev = mydev->pdev;
  328. dma_addr_t dma_handle;
  329. void *addr = buffer->ptr;
  330. size_t size = buffer->len;
  331. dma_handle = pci_map_single(dev, addr, size, direction);
  332. and to unmap it:
  333. pci_unmap_single(dev, dma_handle, size, direction);
  334. You should call pci_unmap_single when the DMA activity is finished, e.g.
  335. from the interrupt which told you that the DMA transfer is done.
  336. Using cpu pointers like this for single mappings has a disadvantage,
  337. you cannot reference HIGHMEM memory in this way.  Thus, there is a
  338. map/unmap interface pair akin to pci_{map,unmap}_single.  These
  339. interfaces deal with page/offset pairs instead of cpu pointers.
  340. Specifically:
  341. struct pci_dev *pdev = mydev->pdev;
  342. dma_addr_t dma_handle;
  343. struct page *page = buffer->page;
  344. unsigned long offset = buffer->offset;
  345. size_t size = buffer->len;
  346. dma_handle = pci_map_page(dev, page, offset, size, direction);
  347. ...
  348. pci_unmap_page(dev, dma_handle, size, direction);
  349. Here, "offset" means byte offset within the given page.
  350. With scatterlists, you map a region gathered from several regions by:
  351. int i, count = pci_map_sg(dev, sglist, nents, direction);
  352. struct scatterlist *sg;
  353. for (i = 0, sg = sglist; i < count; i++, sg++) {
  354. hw_address[i] = sg_dma_address(sg);
  355. hw_len[i] = sg_dma_len(sg);
  356. }
  357. where nents is the number of entries in the sglist.
  358. The implementation is free to merge several consecutive sglist entries
  359. into one (e.g. if DMA mapping is done with PAGE_SIZE granularity, any
  360. consecutive sglist entries can be merged into one provided the first one
  361. ends and the second one starts on a page boundary - in fact this is a huge
  362. advantage for cards which either cannot do scatter-gather or have very
  363. limited number of scatter-gather entries) and returns the actual number
  364. of sg entries it mapped them to.
  365. Then you should loop count times (note: this can be less than nents times)
  366. and use sg_dma_address() and sg_dma_length() macros where you previously
  367. accessed sg->address and sg->length as shown above.
  368. To unmap a scatterlist, just call:
  369. pci_unmap_sg(dev, sglist, nents, direction);
  370. Again, make sure DMA activity has already finished.
  371. PLEASE NOTE:  The 'nents' argument to the pci_unmap_sg call must be
  372.               the _same_ one you passed into the pci_map_sg call,
  373.       it should _NOT_ be the 'count' value _returned_ from the
  374.               pci_map_sg call.
  375. Every pci_map_{single,sg} call should have its pci_unmap_{single,sg}
  376. counterpart, because the bus address space is a shared resource (although
  377. in some ports the mapping is per each BUS so less devices contend for the
  378. same bus address space) and you could render the machine unusable by eating
  379. all bus addresses.
  380. If you need to use the same streaming DMA region multiple times and touch
  381. the data in between the DMA transfers, just map it with
  382. pci_map_{single,sg}, and after each DMA transfer call either:
  383. pci_dma_sync_single(dev, dma_handle, size, direction);
  384. or:
  385. pci_dma_sync_sg(dev, sglist, nents, direction);
  386. as appropriate.
  387. After the last DMA transfer call one of the DMA unmap routines
  388. pci_unmap_{single,sg}. If you don't touch the data from the first pci_map_*
  389. call till pci_unmap_*, then you don't have to call the pci_dma_sync_*
  390. routines at all.
  391. Here is pseudo code which shows a situation in which you would need
  392. to use the pci_dma_sync_*() interfaces.
  393. my_card_setup_receive_buffer(struct my_card *cp, char *buffer, int len)
  394. {
  395. dma_addr_t mapping;
  396. mapping = pci_map_single(cp->pdev, buffer, len, PCI_DMA_FROMDEVICE);
  397. cp->rx_buf = buffer;
  398. cp->rx_len = len;
  399. cp->rx_dma = mapping;
  400. give_rx_buf_to_card(cp);
  401. }
  402. ...
  403. my_card_interrupt_handler(int irq, void *devid, struct pt_regs *regs)
  404. {
  405. struct my_card *cp = devid;
  406. ...
  407. if (read_card_status(cp) == RX_BUF_TRANSFERRED) {
  408. struct my_card_header *hp;
  409. /* Examine the header to see if we wish
  410.  * to accept the data.  But synchronize
  411.  * the DMA transfer with the CPU first
  412.  * so that we see updated contents.
  413.  */
  414. pci_dma_sync_single(cp->pdev, cp->rx_dma, cp->rx_len,
  415.     PCI_DMA_FROMDEVICE);
  416. /* Now it is safe to examine the buffer. */
  417. hp = (struct my_card_header *) cp->rx_buf;
  418. if (header_is_ok(hp)) {
  419. pci_unmap_single(cp->pdev, cp->rx_dma, cp->rx_len,
  420.  PCI_DMA_FROMDEVICE);
  421. pass_to_upper_layers(cp->rx_buf);
  422. make_and_setup_new_rx_buf(cp);
  423. } else {
  424. /* Just give the buffer back to the card. */
  425. give_rx_buf_to_card(cp);
  426. }
  427. }
  428. }
  429. Drivers converted fully to this interface should not use virt_to_bus any
  430. longer, nor should they use bus_to_virt. Some drivers have to be changed a
  431. little bit, because there is no longer an equivalent to bus_to_virt in the
  432. dynamic DMA mapping scheme - you have to always store the DMA addresses
  433. returned by the pci_alloc_consistent, pci_pool_alloc, and pci_map_single
  434. calls (pci_map_sg stores them in the scatterlist itself if the platform
  435. supports dynamic DMA mapping in hardware) in your driver structures and/or
  436. in the card registers.
  437. All PCI drivers should be using these interfaces with no exceptions.
  438. It is planned to completely remove virt_to_bus() and bus_to_virt() as
  439. they are entirely deprecated.  Some ports already do not provide these
  440. as it is impossible to correctly support them.
  441. 64-bit DMA and DAC cycle support
  442. Do you understand all of the text above?  Great, then you already
  443. know how to use 64-bit DMA addressing under Linux.  Simply make
  444. the appropriate pci_set_dma_mask() calls based upon your cards
  445. capabilities, then use the mapping APIs above.
  446. It is that simple.
  447. Well, not for some odd devices.  See the next section for information
  448. about that.
  449. DAC Addressing for Address Space Hungry Devices
  450. There exists a class of devices which do not mesh well with the PCI
  451. DMA mapping API.  By definition these "mappings" are a finite
  452. resource.  The number of total available mappings per bus is platform
  453. specific, but there will always be a reasonable amount.
  454. What is "reasonable"?  Reasonable means that networking and block I/O
  455. devices need not worry about using too many mappings.
  456. As an example of a problematic device, consider compute cluster cards.
  457. They can potentially need to access gigabytes of memory at once via
  458. DMA.  Dynamic mappings are unsuitable for this kind of access pattern.
  459. To this end we've provided a small API by which a device driver
  460. may use DAC cycles to directly address all of physical memory.
  461. Not all platforms support this, but most do.  It is easy to determine
  462. whether the platform will work properly at probe time.
  463. First, understand that there may be a SEVERE performance penalty for
  464. using these interfaces on some platforms.  Therefore, you MUST only
  465. use these interfaces if it is absolutely required.  %99 of devices can
  466. use the normal APIs without any problems.
  467. Note that for streaming type mappings you must either use these
  468. interfaces, or the dynamic mapping interfaces above.  You may not mix
  469. usage of both for the same device.  Such an act is illegal and is
  470. guarenteed to put a banana in your tailpipe.
  471. However, consistent mappings may in fact be used in conjunction with
  472. these interfaces.  Remember that, as defined, consistent mappings are
  473. always going to be SAC addressable.
  474. The first thing your driver needs to do is query the PCI platform
  475. layer with your devices DAC addressing capabilities:
  476. int pci_dac_set_dma_mask(struct pci_dev *pdev, u64 mask);
  477. This routine behaves identically to pci_set_dma_mask.  You may not
  478. use the following interfaces if this routine fails.
  479. Next, DMA addresses using this API are kept track of using the
  480. dma64_addr_t type.  It is guarenteed to be big enough to hold any
  481. DAC address the platform layer will give to you from the following
  482. routines.  If you have consistent mappings as well, you still
  483. use plain dma_addr_t to keep track of those.
  484. All mappings obtained here will be direct.  The mappings are not
  485. translated, and this is the purpose of this dialect of the DMA API.
  486. All routines work with page/offset pairs.  This is the _ONLY_ way to 
  487. portably refer to any piece of memory.  If you have a cpu pointer
  488. (which may be validly DMA'd too) you may easily obtain the page
  489. and offset using something like this:
  490. struct page *page = virt_to_page(ptr);
  491. unsigned long offset = ((unsigned long)ptr & ~PAGE_MASK);
  492. Here are the interfaces:
  493. dma64_addr_t pci_dac_page_to_dma(struct pci_dev *pdev,
  494.  struct page *page,
  495.  unsigned long offset,
  496.  int direction);
  497. The DAC address for the tuple PAGE/OFFSET are returned.  The direction
  498. argument is the same as for pci_{map,unmap}_single().  The same rules
  499. for cpu/device access apply here as for the streaming mapping
  500. interfaces.  To reiterate:
  501. The cpu may touch the buffer before pci_dac_page_to_dma.
  502. The device may touch the buffer after pci_dac_page_to_dma
  503. is made, but the cpu may NOT.
  504. When the DMA transfer is complete, invoke:
  505. void pci_dac_dma_sync_single(struct pci_dev *pdev,
  506.      dma64_addr_t dma_addr,
  507.      size_t len, int direction);
  508. This must be done before the CPU looks at the buffer again.
  509. This interface behaves identically to pci_dma_sync_{single,sg}().
  510. If you need to get back to the PAGE/OFFSET tuple from a dma64_addr_t
  511. the following interfaces are provided:
  512. struct page *pci_dac_dma_to_page(struct pci_dev *pdev,
  513.  dma64_addr_t dma_addr);
  514. unsigned long pci_dac_dma_to_offset(struct pci_dev *pdev,
  515.     dma64_addr_t dma_addr);
  516. This is possible with the DAC interfaces purely because they are
  517. not translated in any way.
  518. Optimizing Unmap State Space Consumption
  519. On many platforms, pci_unmap_{single,page}() is simply a nop.
  520. Therefore, keeping track of the mapping address and length is a waste
  521. of space.  Instead of filling your drivers up with ifdefs and the like
  522. to "work around" this (which would defeat the whole purpose of a
  523. portable API) the following facilities are provided.
  524. Actually, instead of describing the macros one by one, we'll
  525. transform some example code.
  526. 1) Use DECLARE_PCI_UNMAP_{ADDR,LEN} in state saving structures.
  527.    Example, before:
  528. struct ring_state {
  529. struct sk_buff *skb;
  530. dma_addr_t mapping;
  531. __u32 len;
  532. };
  533.    after:
  534. struct ring_state {
  535. struct sk_buff *skb;
  536. DECLARE_PCI_UNMAP_ADDR(mapping)
  537. DECLARE_PCI_UNMAP_LEN(len)
  538. };
  539.    NOTE: DO NOT put a semicolon at the end of the DECLARE_*()
  540.          macro.
  541. 2) Use pci_unmap_{addr,len}_set to set these values.
  542.    Example, before:
  543. ringp->mapping = FOO;
  544. ringp->len = BAR;
  545.    after:
  546. pci_unmap_addr_set(ringp, mapping, FOO);
  547. pci_unmap_len_set(ringp, len, BAR);
  548. 3) Use pci_unmap_{addr,len} to access these values.
  549.    Example, before:
  550. pci_unmap_single(pdev, ringp->mapping, ringp->len,
  551.  PCI_DMA_FROMDEVICE);
  552.    after:
  553. pci_unmap_single(pdev,
  554.  pci_unmap_addr(ringp, mapping),
  555.  pci_unmap_len(ringp, len),
  556.  PCI_DMA_FROMDEVICE);
  557. It really should be self-explanatory.  We treat the ADDR and LEN
  558. seperately, because it is possible for an implementation to only
  559. need the address in order to perform the unmap operation.
  560. Platform Issues
  561. If you are just writing drivers for Linux and do not maintain
  562. an architecture port for the kernel, you can safely skip down
  563. to "Closing".
  564. 1) Struct scatterlist requirements.
  565.    Struct scatterlist must contain, at a minimum, the following
  566.    members:
  567. char *address;
  568. struct page *page;
  569. unsigned int offset;
  570. unsigned int length;
  571.    The "address" member will disappear in 2.5.x
  572.    This means that your pci_{map,unmap}_sg() and all other
  573.    interfaces dealing with scatterlists must be able to cope
  574.    properly with page being non NULL.
  575.    A scatterlist is in one of two states.  The base address is
  576.    either specified by "address" or by a "page+offset" pair.
  577.    If "address" is NULL, then "page+offset" is being used.
  578.    If "page" is NULL, then "address" is being used.
  579.    In 2.5.x, all scatterlists will use "page+offset".  But during
  580.    2.4.x we still have to support the old method.
  581. 2) More to come...
  582.    Closing
  583. This document, and the API itself, would not be in it's current
  584. form without the feedback and suggestions from numerous individuals.
  585. We would like to specifically mention, in no particular order, the
  586. following people:
  587. Russell King <rmk@arm.linux.org.uk>
  588. Leo Dagum <dagum@barrel.engr.sgi.com>
  589. Ralf Baechle <ralf@oss.sgi.com>
  590. Grant Grundler <grundler@cup.hp.com>
  591. Jay Estabrook <Jay.Estabrook@compaq.com>
  592. Thomas Sailer <sailer@ife.ee.ethz.ch>
  593. Andrea Arcangeli <andrea@suse.de>
  594. Jens Axboe <axboe@suse.de>
  595. David Mosberger-Tang <davidm@hpl.hp.com>